機械学習でアルゴリズムを構築する上で重要なのが「データセット」です。アルゴリズムの精度を上げるためにはより多くのデータと時間が求められますが、十分に大規模なデータセットを集めたり探したりするのは機械学習を行う上で特に苦労するポイント。そんなデータセットをオンライン上から検索できる「Dataset Search」の正式版をGoogleが公開しました。

Dataset Search

https://datasetsearch.research.google.com/

Discovering millions of datasets on the web

https://blog.google/products/search/discovering-millions-datasets-web/

Dataset Searchにアクセスするとこんな感じ。



データセットを検索するには、入力欄に検索したいデータセットのキーワードを入力すればOK。試しに「Temperture(温度)」という単語を入力して検索すると……



左カラムには検索結果が、右カラムには選択した検索結果の詳細な情報が表示されます。例えば、検索結果から「Cretaceous stable isotopic record and sea surface temperture estimation for ODP Site 207-1259(ODP地点207〜1259の白亜紀における安定同位体の記録と海面水温の推測)」を選択したところ、右カラムにはページリンクやデータセットの更新日、提供元、作成元、ライセンス、ダウンロード形式、データセットの対象期間と対象地域などが表示されました。ページリンクをクリックすると……



データセットの配布ページに飛ぶことができました。



なお、Dataset Searchでは日本語でもデータセットを検索可能ですが、検索結果にデータセットではなく単なるデータベースやポータルサイトが表示されることもありました。例えば以下は「がん」で検索してみたところで、検索結果上位を占めていたのはデータベースやポータルサイトへのリンクでした。



Googleの研究者であるナターシャ・ノイ氏によれば、Dataset Searchは2020年1月23日をもって、およそ1年続いてきたベータ版テストを正式に終えたとのこと。ベータテストからのフィードバックとして、Dataset Searchの正式版ではデータセットの更新日、ダウンロード形式、ライセンス、無料で利用可能かで検索結果をフィルタリングする機能が追加されました。また、データセットが地理に関するものである場合、Googleマップと連携してマップが表示されます。



ノイ氏によれば、Dataset Searchは既にベータ版ではなく正式版としてリリースされたものの、システムの改善は依然として続けていくとのことで、記事作成時点でもフィードバックを受け付けています。