HyperAI

去年，谢赛宁团队发布Cambrian-1，开启对多模态大模型的探索，但未延续传统迭代路径，转而深入反思：当前大语言模型范式在感知建模上存在根本性局限。在谢赛宁、杨立昆、李飞飞等专家的共同推动下，团队于2025年11月提出“空间超感知”（Spatial Supersensing）新范式，核心理念是用“预测未来”替代“暴力记忆”，以实现真正意义上的持续、智能的视觉理解。该研究指出，现有多模态大模型（MLLMs）大多停留在“看图说话”（语义感知）和短时事件理解阶段，缺乏对长时序、动态3D空间环境的建模能力。为此，团队构建了VSI-SUPER基准，包含长时域视觉空间回忆（VSR）与持续视觉空间计数（VSC）两个任务，使用长达数小时的视频数据，严格测试模型的空间记忆与推理能力。测试结果令人震惊：主流商业模型如Gemini-Live和GPT-Realtime在10分钟视频上准确率不足15%，120分钟时几乎失效，暴露出“长上下文”并非“长理解”的本质缺陷。问题根源在于，当前模型缺乏对空间动态的主动建模能力。团队提出四层演进分类法：从纯语言理解（0层）到语义感知（1层），再到流式事件认知（2层），隐式3D空间认知（3层），最终是预测性世界建模（4层）。当前模型普遍止步于前两层，而第四层——通过预测潜在世界状态进行“无意识推理”——几乎空白。为突破瓶颈，团队构建了VSI-590K数据集，融合真实视频、模拟数据与自动化伪标注，通过GroundingDINO、SAM2、VGGT等工具生成几何相关问答对，训练出Cambrian-S系列模型（0.5B–7B参数）。在VSI-Bench上，Cambrian-S-7B达67.5%准确率，显著超越InternVL3.5-8B、Qwen-VL-2.5-7B，甚至超过Gemini-2.5-Pro 16个百分点。但更关键的突破在于“预测性感知”机制：在模型中引入潜在帧预测头，通过MLP预测下一帧的潜在表征，以预测误差作为“惊奇度”（surprise score）。低惊奇度帧被压缩存储，高惊奇度帧则保留细节，实现智能记忆管理。该机制使模型在120分钟视频上仍能维持约28%的VSC准确率，而商业模型已基本失效。同时，GPU内存使用稳定，验证了其可扩展性。该方法在VSR任务中也表现优异，性能随视频长度增长而稳定，远超Gemini 1.5/2.5 Flash。业内专家认为，该研究标志着多模态AI从“被动记忆”向“主动认知”的范式跃迁。杨立昆评价：“真正的智能不在于记住多少，而在于如何用预测来指导注意力。”李飞飞指出，该工作为具身智能与世界建模提供了可操作的路径。谢赛宁团队强调，当前成果仅为初步探索，VSI-SUPER覆盖场景有限，数据集需进一步扩展，模型泛化能力待提升。未来将深化与具身智能、神经科学的融合，推动“预测-惊喜”机制的系统化发展。该论文、代码、模型与数据集已全面开源，为全球AI研究提供新基准与工具。（约598字）

Verwandte Links

Verwandte Links

Verwandte Links

Jenseits Der Visuellen Realität: Das Neue Bewertungssystem Der Tsinghua WorldArena Deckt Die Leistungslücke in Verkörperten Weltmodellen Auf

Jenseits Der Visuellen Realität: Das Neue Bewertungssystem Der Tsinghua WorldArena Deckt Die Leistungslücke in Verkörperten Weltmodellen Auf

Command Palette

Langvideos überfordern KI: Neue Forschung fordert Vorhersage statt Gedächtnis

Verwandte Links

Command Palette

Langvideos überfordern KI: Neue Forschung fordert Vorhersage statt Gedächtnis

Verwandte Links

Command Palette

Langvideos überfordern KI: Neue Forschung fordert Vorhersage statt Gedächtnis

Verwandte Links

Jenseits Der Visuellen Realität: Das Neue Bewertungssystem Der Tsinghua WorldArena Deckt Die Leistungslücke in Verkörperten Weltmodellen Auf

Jenseits Der Visuellen Realität: Das Neue Bewertungssystem Der Tsinghua WorldArena Deckt Die Leistungslücke in Verkörperten Weltmodellen Auf