データは誰が用意するのか

2023/11/21作成

国会図書館の収蔵漏れを API を使って調べるという記事を最近書きました。タイトルの通り、WebAPI を使って国会図書館の収蔵漏れを調べてみたんです。

調べたテーマとは別のこととして気になったのが、使用した Google Books API のデータ精度が正直言ってイマイチだったってことです。いや、無料でこれだけのデータを提供してもらっていて大変恐縮な意見ではあるんですが。

精度がイマイチってのは、掲載されていない書籍がいくつもあることもですが、掲載されていても ISBN が未登録だったりと不十分なデータであるということもあります。では Google Books API がそんなにいい加減な仕事をしているのかというと、多分そうでもないと思うんですよね。多分精一杯頑張って努力してデータを収集してはいるんだけども、どうしたって追いつかない。それが現実なのかなと。

別の例でいうと、私は個人開発としてカラオケ(仮)というサイトを作って、日本全国のカラオケボックスのデータを掲載しています。このカラオケボックスデータ、実は自分で手作業で収集しています。正直手間がかかって大変ではあるのですが、手間がかかる以上に問題なのが、データの精度がなかなか上がらないこと。一生懸命ググって情報を集めるのですが、そもそもネット上に掲載されてないカラオケボックスの情報は調べようがありません。ネット上に情報があっても、欲しいと思っている詳細な項目が掲載されていないことも多々あります。結局、不十分で歯抜けなデータになってしまうのですね。

というデータ収集の大変さを書いたところで思うのですが、世の中の人ってデータって自動的に用意されるものだと思ってないですかね。そんなことを思ってるのは私だけかもしれませんが。去年くらいから生成AIが急速にブームになって話題になっていますが、それ以前はビッグデータと機械学習が結構人気だったように思います。巨大なデータを使いこなして多様な価値を生み出すデータサイエンティストの方はそれはそれは立派なのですが、一方でデータが無ければ彼らの仕事は成り立たないわけですよね。そのデータは一体だれが用意するのか。

さらに少し時代をさかのぼると、多様な WebAPI を組み合わせてマッシュアップだなんてこともよく言われていました。 WebAPI を通して提供されるのは誰かが一生懸命汗をかいて集めたデータなんですが、そこに言及する意見はあまり見かけなかったような気がします。なんとなくデータってのは勝手に用意されていて、しかもその精度は 100% 完璧であることが前提という感じがするんですね。私が勝手にそう思ってただけかもしれませんが。実際のところ、データサイエンティストのお仕事としてもデータクレンジングが結構重要という話もありますしね。

結論として何が言いたいのかというと、データ収集って大事だよねってことです。なんとなく目がいかなくて、勝手にデータって生えてくるものだと思ってしまってったって反省です。