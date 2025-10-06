Image: Shutterstock

小規模デベロッパーにも使いやすいようにと。

秋の夜長にふらりと覗いたが最後、止まらなくなるWikipedia。でもWikipediaに蓄積された膨大な情報は、単に読んで楽しんだり、仕事や勉強に役立てたりできるだけじゃありません。生成AIが学習する知識源としても、とても重要なんですね。

そこでWikipediaを運営するWikimediaのドイツ支部・Wikimedia Germanyが、今まで以上にAIモデルが利用しやすいデータとして、Wikidata埋め込みプロジェクト（Embedding Project）を公開しました。

膨大なデータをAI仕様に変換

Wikipediaにある情報は、従来から「Wikidata」としてきれいに構造化されていて、約1億2000万件あるエントリーを機械的に読み込むことも可能でした。ただ生成AIは自然言語を扱うものなので、Wikidataは使える形ではありませんでした。そこでWikidata埋め込みプロジェクトでは、WikidataをAIモデルが使いやすいベクトルの形に変換させたのです。

データをベクトルに…ってどういうことか、Wikimedia Germanyのブログで説明してくれてます。

いわゆるベクトルとは、言葉同士の関係を数字の座標で示すようなものです。これはマップで想像できます。たとえば「犬」と「子犬」のような関連の強い単語は近くにあり、「犬」と「銀行口座」はより遠く離れます。これによって、AIシステムは単語の意味をよりよく「理解」し、自然言語の中でより効率よく処理できるのです。

さらに従来のWikidataでは、AIが学習するのは最初だけで、その後はWikipediaのデータが追加されても反映が難しいという問題がありました。でもこの埋込みプロジェクトによって、AIから最新のWikidataにアクセスできる「RAG（Retrieval Augmented Generation）」という仕組みが追加され、情報更新もより簡単になりました。

Wikimedia Germanyはプレスリリースの中で、このプロジェクトの目的は、AIモデルにクオリティの高い情報を与えることで、モデルからの回答の信頼性を向上させることだとしています。またほとんどのAIシステムは今、不透明なデータセットに依存しているとも指摘します。

AIのオープンな開発を呼びかけ

さらに彼らのもうひとつの目的は、小規模なAI開発プレイヤーを応援し、巨大テック企業とも競合しやすくすることです。資金やデータセンターといったリソースを潤沢に使える大企業なら、膨大なデータでも自前でベクトル化もできますが、小規模なデベロッパーにとってはかなりの負担です。Wikidata埋め込みプロジェクトは、そのハードルを大きく下げてくれるわけですね。

埋め込みプロジェクトの立ち上げは、強力なAIがひと握りの企業にコントロールされる必要はないことを示します。AIはオープンに、協業的に開発が可能なのです。

WikidataのAI・機械学習プロジェクトマネジャー、Philippe Saade氏は声明で言っています。

このプロジェクトは2024年9月から始まり、Jina AIとIBM傘下のDataStaxの協力により進んできました。Wikidataのエントリーをベクトルに変換するシステムの開発はJina AIが行い、DataStaxは同社のベクトルデータベース・Astra DBにデータを格納しています。

一方、イーロンはGrokipediaを始動

ちなみにこのWikimedia Germanyの発表の前日、イーロン・マスク氏はWikipediaのライバルとなりうるGrokipediaの開発をXで発表していました。

We are building Grokipedia @xAI.



Will be a massive improvement over Wikipedia.



Frankly, it is a necessary step towards the xAI goal of understanding the Universe. https://t.co/xvSeWkpALy - Elon Musk (@elonmusk) September 30, 2025

我々はxAIでGrokipediaを開発します。それはWikipediaと比べて非常に大きな改善となるでしょう。はっきり言って、それは宇宙を理解するというxAIのゴールに向けて必要なステップです。

とマスク氏。

マスク氏はこれまで、Wikipediaは左翼かぶれなどと批判し、意識高い系じゃない方の知識源がないことを問題視していました。といいますか、Wikipedia含め幅広い情報源から学習したのであろうGrokは、マスク氏の思いとは（多分）裏腹に、わりと「意識高い」発言が多かったんですよね。だからマスク氏的には「ええい、学習データからやり直しだ！」ということなのかもしれません。

なんというか、こういうマスク氏のような人が思う「事実」に寄せた百科事典の動きがあるからこそ、Wikidata埋め込みプロジェクトも立ち上がったんでしょうね。AIがどんどんメジャーになるにつれ、AIシステムの元データのバイアスが、無数の人にとっての「事実」に影響してしまうので…。