HyperAIHyperAI

Command Palette

Search for a command to run...

LeCunが再び警鐘:大規模言語モデルは死胡同、世界モデルがAIの真の道

Metaの首席AI科学者であり、2018年図灵賞受賞者のヤン・レクン氏が、大規模言語モデル(LLM)と人形ロボットの開発に懸念を示した。MIT生成的AI影響力連合のシンポジウムで行われた基調講演で、レクン氏は「LLMは人間レベルの知能に到達する道のりの『死胡同』だ」と明言。また、人形ロボット業界の現状について「多くの企業が、ロボットに『十分な知能』をもたせる方法をまだ知らない」と指摘し、技術的限界を露呈した。 レクン氏は、LLMが人間の知識を大量のテキストから「再現」している点に根本的な問題があると指摘。たとえば、Llama 3の学習に用いられた30兆トークン(約10^14バイト)は、インターネット上に存在する公開テキストの全量に相当する。しかし、4歳の子どもが視覚系を通じて4年間で処理する情報量も、この規模とほぼ同程度である。この対比から、単にテキストを学習するだけでは、人間や猫のような物理世界の理解は得られないと結論づけた。 その代わりに、彼は「世界モデル(World Model)」の構築を提唱。その核となるのは、JEPA(Joint Embedding Predictive Architecture) と呼ばれる非生成的アーキテクチャ。このアプローチは、画像や動画の「ピクセル」を再構成するのではなく、高次元の「表徴(representation)」を予測する。これにより、予測不可能な細部(例:人物の顔、床の模様)を無視しつつ、物理的・論理的な一貫性を学習できる。MetaのFAIR研究所での実験では、JEPA系モデルが従来の生成モデル(MAE)を上回る性能を示し、自然な動画から「常識的」な推論が可能になることが確認された。 特に注目すべきは、この世界モデルを用いたロボットの「ゼロショットタスク実行」。訓練データとして「動画の一部とその結果」を用い、自発的に世界の動的モデルを学習。その後、新しいタスク(例:コーヒーを淹れる)を、強化学習を用いずに、シミュレーション上で「計画」して実行可能になった。このアプローチは、AIの「意図的行動」を可能にし、安全設計も可能に。たとえば、人を避けるように「制約(护栏)」を目標関数に組み込むことで、AIが人を傷つける行動を「構造的に」回避する。 レクン氏は、AIの未来はLLMではなく、自発的・非生成的・世界モデルに基づくアーキテクチャにあり、3~5年以内に主流になるとの見通しを示した。また、若者への提言として「アプリ開発より量子力学を学べ」と強調。抽象的で汎用的な理論的思考が、AIの発展に不可欠だと説いた。AIは「人間の下位作業」を担い、人間はより高次の思考に集中する時代が来る。レクン氏の主張は、AIの「本質的限界」に目を向け、真の知能の実現に向けた道筋を示す、画期的な提言である。

関連リンク