HyperAIHyperAI

Command Palette

Search for a command to run...

AIの次世代へ:赤ちゃんがスプーンを落とすように、動画で学ぶ世界モデルの時代到来

AIの未来は、赤ちゃんがスプーンを落とす様子から学ぶべきだと、MetaのAI最高責任者でありチューリング賞受賞者のヤン・レクン氏が主張している。彼の見解は、現在のAIが「言葉の理解」に特化しすぎている点に問題があると指摘するものだ。今日の主流となる大規模言語モデル(LLM)は、文章を統計的に予測して次の一単語を生成する「自己回帰型」アーキテクチャに依存している。しかし、この方式には根本的な欠陥がある。小さな誤差が1つずつ積み重なり、長文生成では誤りが指数関数的に拡大し、「ハルシネーション」——現実と乖離した信憑性の高い誤った出力——を引き起こす。たとえば、存在しない裁判所や判例を引用して完璧な法的文書を書くことができるが、それは実際には「世界」を理解しているわけではない。 レクン氏は、こうしたモデルは「テキストの本を読んだだけの物理学者」に過ぎないと批判する。一方、赤ちゃんは高か椅子でスプーンを何度も落とすことで、重力の法則を直接体験し、世界の仕組みを「観察」によって学んでいる。この点に着目し、彼はAIの次世代は「動画」を通じて学ぶべきだと主張している。動画は、運動、空間、因果関係といったリアルな物理法則を含む膨大な感覚情報の源であり、テキストでは表現できない「常識」を学ぶ土台となる。 実際、Metaは動画から世界の法則を学ぶ「V-JEPA 2」を発表。Appleも長時間の動画を分析し、物体と動きを分離して理解する「SlowFast-LLaVA-1.5」を開発している。これらは、赤ちゃんが「目で見て、体で感じて」世界を理解するのと同じアプローチだ。レクン氏のビジョンは、言語を先に学ぶのではなく、まず「世界モデル」を構築し、その後に言語を学ぶという逆転の発想。これは、AIが「言葉のまね」ではなく、「世界の本質」を理解する道を開く。 この転換が成功すれば、AIは単なる言語生成機ではなく、空間的・時間的推論や、医療や気候変動分野での新たな発見を可能にする。レクン氏の予測は、過去の技術的予見と一致しており、今後のAI開発の方向性を示す重要な転換点となる。

関連リンク

AIの次世代へ:赤ちゃんがスプーンを落とすように、動画で学ぶ世界モデルの時代到来 | 人気の記事 | HyperAI超神経