大模型在长视频面前“失明”?谢赛宁、杨立昆、李飞飞联手提出空间超感知新范式,用“预测未来”破解记忆瓶颈
长视频让大模型“失明”?谢赛宁、杨立昆、李飞飞等提出“空间超感知”新范式,用“预测未来”替代“暴力记忆”。2024年,谢赛宁团队发布Cambrian-1,开启对多模态模型的探索。但未按常规推进后续版本,而是深入反思:当前大模型的感知能力是否真正触及“理解世界”的本质?他提出,真正的超级智能必须建立在超级感知之上,而不仅仅是更强大的语言模型。 团队提出一个四层演进框架:从纯语言理解(第零层),到语义感知(第一层),再到流式事件认知(第二层),进而发展为隐式3D空间认知(第三层),最终达到预测性世界建模(第四层)。当前主流多模态大模型(MLLMs)大多停留在前两层,少数触及第三层,而第四层——通过预测未来来实现高效感知——几乎完全缺失。 为验证这一判断,团队构建了VSI-SUPER基准,包含长时域视觉空间回忆(VSR)和持续视觉空间计数(VSC)两个任务,使用长达数小时的视频。结果令人震惊:号称具备“长上下文”能力的Gemini-Live和GPT-Realtime在10分钟视频上准确率不足15%,120分钟时几乎失效。这揭示出,仅靠扩大上下文长度无法解决持续空间感知问题。 问题根源在于,现有模型缺乏对空间动态的“主动理解”能力。为此,团队开发了VSI-590K数据集,涵盖59万条高质量视频指令样本,通过自动化流程生成几何相关问答对。基于此,训练出Cambrian-S系列模型,参数从0.5B到7B不等。其训练分四阶段:视觉-语言对齐、图像调优、通用视频调优,最后是空间视频调优。 实验显示,Cambrian-S-7B在VSI-Bench上达67.5%准确率,远超InternVL3.5-8B、Qwen-VL-2.5-7B,甚至超过Gemini-2.5-Pro 16个百分点。更关键的是,其在VSI-SUPER上表现稳定,即使在120分钟视频中仍保持约28%准确率,而商业模型已基本失效。 核心突破在于“预测性感知”机制:模型在生成下一token的同时,预测下一个视频帧的潜在表征。通过计算预测误差,生成“惊奇度”(surprise score)。低惊奇度帧被压缩存储,高惊奇度帧则保留细节。这使模型能以有限记忆处理无限长视频流。同时,基于惊奇度的事件分割机制,可自动将连续视频划分为有意义的事件单元。 该机制在VSR任务中显著提升长视频性能,且内存使用恒定,避免了上下文扩展模型的性能坍塌。尽管当前模型在泛化性、数据多样性等方面仍处探索阶段,但这一范式为AI感知建模指明了新方向:未来智能体不应被动“记忆”世界,而应像人脑一样“预测”世界,用“惊喜”驱动学习与决策。
