HyperAI超神经

长视频让大模型“失明”？谢赛宁、杨立昆、李飞飞等提出“空间超感知”新范式，用“预测未来”替代“暴力记忆”。2024年，谢赛宁团队发布Cambrian-1，开启对多模态模型的探索。但未按常规推进后续版本，而是深入反思：当前大模型的感知能力是否真正触及“理解世界”的本质？他提出，真正的超级智能必须建立在超级感知之上，而不仅仅是更强大的语言模型。团队提出一个四层演进框架：从纯语言理解（第零层），到语义感知（第一层），再到流式事件认知（第二层），进而发展为隐式3D空间认知（第三层），最终达到预测性世界建模（第四层）。当前主流多模态大模型（MLLMs）大多停留在前两层，少数触及第三层，而第四层——通过预测未来来实现高效感知——几乎完全缺失。为验证这一判断，团队构建了VSI-SUPER基准，包含长时域视觉空间回忆（VSR）和持续视觉空间计数（VSC）两个任务，使用长达数小时的视频。结果令人震惊：号称具备“长上下文”能力的Gemini-Live和GPT-Realtime在10分钟视频上准确率不足15%，120分钟时几乎失效。这揭示出，仅靠扩大上下文长度无法解决持续空间感知问题。问题根源在于，现有模型缺乏对空间动态的“主动理解”能力。为此，团队开发了VSI-590K数据集，涵盖59万条高质量视频指令样本，通过自动化流程生成几何相关问答对。基于此，训练出Cambrian-S系列模型，参数从0.5B到7B不等。其训练分四阶段：视觉-语言对齐、图像调优、通用视频调优，最后是空间视频调优。实验显示，Cambrian-S-7B在VSI-Bench上达67.5%准确率，远超InternVL3.5-8B、Qwen-VL-2.5-7B，甚至超过Gemini-2.5-Pro 16个百分点。更关键的是，其在VSI-SUPER上表现稳定，即使在120分钟视频中仍保持约28%准确率，而商业模型已基本失效。核心突破在于“预测性感知”机制：模型在生成下一token的同时，预测下一个视频帧的潜在表征。通过计算预测误差，生成“惊奇度”（surprise score）。低惊奇度帧被压缩存储，高惊奇度帧则保留细节。这使模型能以有限记忆处理无限长视频流。同时，基于惊奇度的事件分割机制，可自动将连续视频划分为有意义的事件单元。该机制在VSR任务中显著提升长视频性能，且内存使用恒定，避免了上下文扩展模型的性能坍塌。尽管当前模型在泛化性、数据多样性等方面仍处探索阶段，但这一范式为AI感知建模指明了新方向：未来智能体不应被动“记忆”世界，而应像人脑一样“预测”世界，用“惊喜”驱动学习与决策。

相关链接

相关链接

相关链接

视觉真实之外：清华 WorldArena 全新评测体系揭示具身世界模型的能力鸿沟

视觉真实之外：清华 WorldArena 全新评测体系揭示具身世界模型的能力鸿沟

Command Palette

大模型在长视频面前“失明”？谢赛宁、杨立昆、李飞飞联手提出空间超感知新范式，用“预测未来”破解记忆瓶颈

相关链接

Command Palette

大模型在长视频面前“失明”？谢赛宁、杨立昆、李飞飞联手提出空间超感知新范式，用“预测未来”破解记忆瓶颈

相关链接

Command Palette

大模型在长视频面前“失明”？谢赛宁、杨立昆、李飞飞联手提出空间超感知新范式，用“预测未来”破解记忆瓶颈

相关链接

视觉真实之外：清华 WorldArena 全新评测体系揭示具身世界模型的能力鸿沟

视觉真实之外：清华 WorldArena 全新评测体系揭示具身世界模型的能力鸿沟