HyperAIHyperAI

Command Palette

Search for a command to run...

ウィキメディアがAI向けにデータをより使いやすく、誰もが簡単に検索できる仕組みを新しく構築

ドイツのウィキメディア(Wikimedia Deutschland)は、2024年10月に「ウィキデータ埋め込みプロジェクト(Wikidata Embedding Project)」を発表し、Wikipediaやその姉妹プロジェクトの約1200万件の知識データを、AIモデルがより効果的に利用できる形式に変換した。このプロジェクトは、自然言語処理モデル(LLM)や検索増強生成(RAG)システムが、構造化された知識を意味的に理解して活用できるようにする仕組みで、機械学習用のベクトル表現(数値座標)にデータを変換。たとえば「科学者」という語を検索すると、ベル・ラボの研究者や核物理学の著名人、関連語「研究者」「学者」、多言語訳、関連画像など、文脈を含んだ情報が一括で得られる。 この技術は、従来のキーワード検索やSPARQLクエリに比べ、AIが「意味」を理解する上で大幅な進歩をもたらす。プロジェクトは、ニューラル検索企業のJina.AIとIBM傘下のDataStaxと連携し、データのベクトル化と高速ストレージを実現。特に、AI開発者にとって高品質な訓練データが不足する中で、Wikipediaの信頼性の高い編集データをAIに供給する新たな道筋を示している。一方で、AI開発が巨額のデータ利用訴訟(例:アントロピックの15億ドルの和解)を引き起こす中、オープンな知識基盤の重要性が再認識されている。 プロジェクトの主な目的は、大手テック企業に依存しないAI開発の民主化。開発者向けに公開されたデータベースは、Toolforgeで誰でもアクセス可能で、10月9日には開発者向けのウェビナーも開催される。ウィキデータAIプロジェクトマネージャーのフィリップ・サアデ氏は、「強力なAIは少数の企業に独占される必要はない。オープンで協働的な形で誰もが使えるべきだ」と強調。また、ウィキデータのポータフォリオリーダーであるリディア・ピンツッシャー氏は、小規模な開発者や非営利団体が、政府関係者の連絡先を検索できる「Govdirectory」のようなユニークなアプリケーションを生み出す可能性を指摘。インターネット全体のデータに偏りがある中で、Wikipediaがカバーする「ニッチなトピック」へのアクセスが、AIの偏りを軽減する鍵になると期待されている。 この発表は、エロン・マスクが「Wokipedia」と批判し、自らのAI企業xAIで「Grokipedia」というWikipediaの代替を構想しているのと対照的。マスクらの批判は、編集の多様性や偏りへの懸念を背景にしているが、ウィキメディア側は、オープンで透明な知識基盤の価値を再確認する形で、AI時代の信頼性ある情報インフラを提供しようとしている。現在のデータは2024年9月18日までのデータを基に構築されており、その後の微小な編集はベクトルの意味に大きな影響を及ぼさないため、継続的に利用可能。今後のアップデートは開発者のフィードバックをもとに検討される。

関連リンク

ウィキメディアがAI向けにデータをより使いやすく、誰もが簡単に検索できる仕組みを新しく構築 | 人気の記事 | HyperAI超神経