長動画で大模型が「失明」?謝賽寧・楊立昆・李飛飛らが提唱する「予測型空間超感知」で次世代AIの地図を描く
長時間の動画処理において、大規模多モーダルモデル(MLLM)が「視覚的失明」を起こす現象に、謝賽寧(Saining Xie)氏を筆頭とする研究チームが警鐘を鳴らした。2025年11月に発表された論文『Cambrian-S: Towards Spatial Supersensing in Video』では、現在のAIが「空間的知覚」の本質を捉えていないと指摘。特に、長時間の動画を処理する際、Gemini-LiveやGPT-Realtimeといった「長文脈」モデルの性能が10分以上で急激に低下し、120分の動画では正確性がほぼゼロに近い結果を示した。 この現象の背景には、MLLMが「記憶の暴力的拡張」に依存しているが、空間的推論や世界の動的変化を「予測」する能力に欠けている点がある。研究チームは、AIの知能発展を4段階の分類で定義:第0層(言語理解)、第1層(語義的認識)、第2層(リアルタイムイベント理解)、第3層(3D空間の内省的把握)、第4層(予測的世界モデル構築)。現行のモデルは第2層にとどまり、第4層の「予測的知覚」は未到の領域。 この課題を解決するため、チームはVSI-SUPERという新基準を構築。長時間(60~120分)の動画を用い、視覚的空間記憶(VSR)と空間的数え上げ(VSC)の能力を測定。結果、商業モデルは10分の動画でも平均正解率15%未満にとどまり、120分ではほぼ機能不全に。この「長文脈の無力さ」は、単なるメモリ容量の不足ではなく、情報の「価値判断」が欠如している証拠とされた。 そこで開発されたのが、謝賽寧氏らが提唱する「空間的超知覚(Spatial Supersensing)」の新アーキテクチャ。核心は「予測的知覚(Predictive Sensing)」。人間の脳が「次に何が起こるか」を予測し、予期しない出来事に注目するのと同様、モデルは次の動画フレームの潜在表現を予測。予測誤差(「驚き度」)が低いフレームは圧縮・保存、高いフレームは詳細記録。これにより、無限に近い動画ストリームを有限のメモリで効率的に処理可能。 この仕組みを搭載した「Cambrian-S」モデル(0.5B~7B)は、VSI-Benchで67.5%の正解率を達成。Gemini-2.5-Proを16ポイント以上上回り、長時間動画でも性能の急落を回避。VSCタスクでは120分動画でも28%の正解率を維持。また、GPUメモリ使用量は時間経過にかかわらず一定。これは、単なる「記憶の拡張」ではなく、知能の「管理戦略」の転換を示す。 研究チームは、VSI-590Kデータセット(59万件の空間的視覚タスク)と、自動化されたアノテーションパイプライン(GroundingDINO、SAM2、VGGTを活用)の開発も発表。論文、コード、モデル、データはGitHubおよびHugging Faceでオープンソース化。 今後の課題は、この「予測的知覚」の汎化性と、具身的・多様なシナリオへの適用。謝賽寧氏、楊立昆(Yann LeCun)、李飛飛(Li Fei-Fei)らが示す方向性は、AIが「世界を体験する」ための根本的転換を意味する。長時間の動画理解は、単なる処理能力の問題ではなく、AIが「未来を予測し、現実を理解する」知能の本質にかかっている。
