HyperAI超神経

長時間の動画処理において、大規模多モーダルモデル（MLLM）が「視覚的失明」を起こす現象に、謝賽寧（Saining Xie）氏を筆頭とする研究チームが警鐘を鳴らした。2025年11月に発表された論文『Cambrian-S: Towards Spatial Supersensing in Video』では、現在のAIが「空間的知覚」の本質を捉えていないと指摘。特に、長時間の動画を処理する際、Gemini-LiveやGPT-Realtimeといった「長文脈」モデルの性能が10分以上で急激に低下し、120分の動画では正確性がほぼゼロに近い結果を示した。この現象の背景には、MLLMが「記憶の暴力的拡張」に依存しているが、空間的推論や世界の動的変化を「予測」する能力に欠けている点がある。研究チームは、AIの知能発展を4段階の分類で定義：第0層（言語理解）、第1層（語義的認識）、第2層（リアルタイムイベント理解）、第3層（3D空間の内省的把握）、第4層（予測的世界モデル構築）。現行のモデルは第2層にとどまり、第4層の「予測的知覚」は未到の領域。この課題を解決するため、チームはVSI-SUPERという新基準を構築。長時間（60～120分）の動画を用い、視覚的空間記憶（VSR）と空間的数え上げ（VSC）の能力を測定。結果、商業モデルは10分の動画でも平均正解率15％未満にとどまり、120分ではほぼ機能不全に。この「長文脈の無力さ」は、単なるメモリ容量の不足ではなく、情報の「価値判断」が欠如している証拠とされた。そこで開発されたのが、謝賽寧氏らが提唱する「空間的超知覚（Spatial Supersensing）」の新アーキテクチャ。核心は「予測的知覚（Predictive Sensing）」。人間の脳が「次に何が起こるか」を予測し、予期しない出来事に注目するのと同様、モデルは次の動画フレームの潜在表現を予測。予測誤差（「驚き度」）が低いフレームは圧縮・保存、高いフレームは詳細記録。これにより、無限に近い動画ストリームを有限のメモリで効率的に処理可能。この仕組みを搭載した「Cambrian-S」モデル（0.5B～7B）は、VSI-Benchで67.5％の正解率を達成。Gemini-2.5-Proを16ポイント以上上回り、長時間動画でも性能の急落を回避。VSCタスクでは120分動画でも28％の正解率を維持。また、GPUメモリ使用量は時間経過にかかわらず一定。これは、単なる「記憶の拡張」ではなく、知能の「管理戦略」の転換を示す。研究チームは、VSI-590Kデータセット（59万件の空間的視覚タスク）と、自動化されたアノテーションパイプライン（GroundingDINO、SAM2、VGGTを活用）の開発も発表。論文、コード、モデル、データはGitHubおよびHugging Faceでオープンソース化。今後の課題は、この「予測的知覚」の汎化性と、具身的・多様なシナリオへの適用。謝賽寧氏、楊立昆（Yann LeCun）、李飛飛（Li Fei-Fei）らが示す方向性は、AIが「世界を体験する」ための根本的転換を意味する。長時間の動画理解は、単なる処理能力の問題ではなく、AIが「未来を予測し、現実を理解する」知能の本質にかかっている。

関連リンク

関連リンク

関連リンク

視覚的現実を超えて：清華ワールドアリーナの新しい評価システムが具現化された世界モデルの能力ギャップを明らかにする

視覚的現実を超えて：清華ワールドアリーナの新しい評価システムが具現化された世界モデルの能力ギャップを明らかにする

Command Palette

長動画で大模型が「失明」？謝賽寧・楊立昆・李飛飛らが提唱する「予測型空間超感知」で次世代AIの地図を描く

関連リンク

Command Palette

長動画で大模型が「失明」？謝賽寧・楊立昆・李飛飛らが提唱する「予測型空間超感知」で次世代AIの地図を描く

関連リンク

Command Palette

長動画で大模型が「失明」？謝賽寧・楊立昆・李飛飛らが提唱する「予測型空間超感知」で次世代AIの地図を描く

関連リンク

視覚的現実を超えて：清華ワールドアリーナの新しい評価システムが具現化された世界モデルの能力ギャップを明らかにする

視覚的現実を超えて：清華ワールドアリーナの新しい評価システムが具現化された世界モデルの能力ギャップを明らかにする