AIの先駆けたちが語る：言語モデルを超えた「世界モデル」の新時代へ

世界モデルの開発が新たなAI研究のフロンティアへ言語モデルの限界を指摘し、次世代AIの開発に取り組んでいる研究者がいる。フェイ・フェイ・リー教授（スタンフォード大学）とヤン・ルクーン博士（メタの最高AI科学者）らは、「世界モデル」という新しいタイプのAIモデルを構築しようとしている。フェイ・フェイ・リー教授は、Andreessen Horowitz、New Enterprise Associates、Radical Venturesなどから2024年に230億円の資金を得て、World Labsを共同設立した。同社は「AIモデルを2Dのピクセルから完全な3D世界へと引き上げ、われわれと同じ豊かな空間知能を付与することを目指している」と公式ウェブサイトで述べている。言語モデルは、訓練データ内の言葉やフレーズの統計的関係に基づいて出力を生成するのに対し、世界モデルは人間が周囲の世界について形成する精神的構造に基づいてイベントを予測する。「言語は自然の中で存在しない。人間は言語を超えて文明を築いている」とリー教授はa16zポッドキャストで述べた。 MITのジェイ・ライト・フォレスター教授は1971年の論文「ソーシャルシステムの反直感的行動」で、精神的モデルが人間の判断に不可欠であると説明した。人は毎日、頭の中の概念や関係を使って現実のシステムを表している。「すべての決定はモデルに基づいて行われる」とフォレスター教授は指摘する。AIが人間の知能に追いつき追い越すためには、このような精神的モデルを作成できることが必要だという。リー教授はNo Priorsポッド캐ストで、空間知能は「三次元の世界を理解し、推論し、相互作用し、生成する能力」であると説明した。彼女は創造性の分野やロボティクス、あるいは無限の宇宙が必要とされる領域での世界モデルの応用可能性を見出している。軍事応用でも、兵士が戦場で周囲の環境をより正確に認識し、敵の次の動きを予測するのに役立つ可能性がある。ただし、世界モデルを構築する際に最大の課題はデータの乏しさだ。人間は何世紀にもわたって言語を洗練し記録してきたが、空間知能についてはそれが十分に発達していない。「目を瞑って周囲の環境の3Dモデルを描こうとしても簡単ではない」とリー教授は指摘し、精巧なデータエンジニアリング、収集、処理、合成が必要だと強調した。メタのルクーン博士も似たようなプロジェクトに取り組んでおり、ビデオデータを使用してモデルを訓練し、複数のレベルでビデオを抽象化するシミュレーションを実行している。「基本的なアイデアはピクセルレベルで予測するのではなく、ビデオの抽象的な表現を生成し、その表現を用いて予測を行うことだ。この表現は予測不可能な詳細を削除するはずだ」と、パリでのAI Action Summitで述べた。ルクーン博士はシンガポール国立大学で講演し、「新しいタスクを素早く学習できるAIシステムを作るためには、テキストや言語だけでなく、物理的世界を理解し、某种程度の常識と推論・計画の能力、持続的記憶を持たせる必要がある」と強調した。これによってAIが真正な知的エンティティになる可能性があるという。業界関係者のコメントメタのルクーン博士は、言語を超えたAIの進化が不可欠であると述べた。World Labsは2024年設立以来、迅速に技術革新を進め、投資家らからは大きな期待を集めている。同社の目標は、AIが人間に近い空間知能を持つことで、多様な応用分野での活躍を実現することにある。

AIの先駆けたちが語る：言語モデルを超えた「世界モデル」の新時代へ

Related Links