オープンデータについて

2022/3/21作成

世間ではすでに指摘済みのことばかりだと思いますが、オープンデータについて少し調べていて感じたことを自分用にメモしておきます。

「探すのが大変」。どこにデータがあるのか探すのがとてつもなく大変です。国が提供しているデータですら、各省庁がバラバラに提供していますし。オープンデータのカタログサイトもあるんですが、大規模に網羅したサイトは見あたらず、カタログサイトのカタログサイトが必要な状況。オープンデータの検索エンジンなどもありますが、まだ十分に機能していない状況。

「データ形式の問題」。データが無いよりはもちろんマシなんですが、それでもPDFとかExcelで提供されていると、それを手作業でCSVなどに変換しなければならず手間がかかります。セル結合などを多用して見た目を過剰に整えられていて、人間が解釈して入力しなおさなければならないデータも多々あります。

「提供者の信頼性」。そのデータを誰が用意したかってのは重要です。一般市民が国の統計データを勝手に推測して公開していても、正直言ってオープンデータとして扱えない。国の統計データはやはり国が出したものでないと信頼性の面で問題があります。元が国の公開したデータであっても、形式がイマイチなんで整形して再公開しましたって場合でも同様ですね。そういう活動が有意義なのは間違いないんですが、整形の時にミスが起こっていないとは限らない。もちろんそういう信頼性とわかって、それでも構わないという用途に使う分には問題ないです。別に一般市民はデータを公開してはいけないってわけではないんですよ。その人がそのデータについては確かに正しいものを提供しているなと信頼できるならいいんですよね。

「データ提供の継続性」。ある時点でのデータというのも意味はありますが、定期的にデータが収集されて時系列に比較されているのならより望ましいです。祝日データなどのように、常に最新であることが求められるものもあります。日本の祝日のデータをオープンデータとして公開しましたといっても、最終更新が5年前だったりしたら、最近の祝日事情は反映されてないわけですよね。

(2022/6/2追記)

【個人開発】パッケージマネージャーの考えを流用してオープンデータ管理ツールを作ってみた話という記事を見かけました。オープンデータのためのパッケージマネージャを作ったそうです。って、タイトルのまんまですね。

これは非常にいいアイデアだと思いますね。パッケージマネージャになっているとCIとかIaCとかに組み込むことも容易になりますし。それぞれの配布元がどこかとか、最新版がいくつであるとかとか、開発者は気にしなくてよくなるわけですよね。なるほど。

ということで、課題に関しては解決に動いている人もちゃんといるんですねってことでした。