フェイ・フェイ・リーとヤン・レクンが「世界モデル」に賭ける理由——3つの異なるビジョンが交差するAIの新フェーズ
AIの「世界モデル」が注目を集める中、フェイ・フェイ・リー氏とヤン・レクン氏のそれぞれの取り組みが、同じ言葉を用いながらも本質的に異なる方向性を示している。世界モデルとは、AIが3D空間、物理法則、行動の連鎖を内省的に理解し、自らの意思で世界と対話できるようにする技術の総称だが、実際には三つの異なるアプローチが存在する。 フェイ・フェイ・リー氏が率いるWorld Labsは、3Dコンテンツ生成ツール「Marble」を発表。テキストや画像からブラウザ上で歩き回れる3Dシーンを生成する。この技術の核は「ガウススプラット」と呼ばれる3D表現手法で、写真のスキャンを高速で再現し、ゲームエンジンにインポートできる静的3Dアセットを生成する。しかし、これは「人間が見るための3Dビューア」に近く、AIが世界を「理解」するのではなく、視覚的に再現するためのツールにすぎない。リー氏の「言語から世界へ」という提言は、ロボットが世界を体験・行動できるようにする「空間知能」の実現を目指すが、Marbleはまだその第一歩に過ぎない。 一方、Metaの元首席AI科学者であり、AI研究の巨匠であるヤン・レクン氏は、「世界モデル」を「内部の予測的記憶」として捉える。彼の提唱するJEPA(結合埋め込み予測アーキテクチャ)は、画像のピクセルではなく、潜在的な表現を予測することで、AIが未来を「考える」ための基盤を構築する。これは「見た目を再現する」のではなく、「何が起こるかを予測する」仕組み。レクン氏が新会社を設立する計画を発表した背景には、AIが単なる「次に来る単語」を予測するのではなく、自らの行動の結果を内省的にシミュレートできる「認知的枠組み」の構築がある。 DeepMindのGenie 3は、中間的なアプローチを取る。テキスト入力からリアルタイムで24fpsの動画を生成し、ユーザーが「雨が降る」などと指示して世界に変化を加えられる。物体はフレーム間で持続し、AIエージェントが仮想環境で学習できる。これは「学習用のシミュレータ」であり、人間の視覚的体験と、AIの推論の両方を満たす。 結局、「世界モデル」という言葉は、人間向けの3Dビューア、AIエージェントの学習環境、あるいはAI内部の予測モデル——三つの意味を内包している。Marbleは「人間のための静的3Dアセット」、Genie 3は「AIのための動的シミュレータ」、レクンのアプローチは「AIの内部的思考の枠組み」。いずれも「世界を理解する」を共通の目標にしているが、その実現方法は根本的に異なる。AIの真の進化は、単なる「見た目」の再現ではなく、内面的な「理解」の構築にある。
