Langvideos überfordern KI: Neue Forschung fordert Vorhersage statt Gedächtnis
去年,谢赛宁团队发布Cambrian-1,开启对多模态大模型的探索,但未延续传统迭代路径,转而深入反思:当前大语言模型范式在感知建模上存在根本性局限。在谢赛宁、杨立昆、李飞飞等专家的共同推动下,团队于2025年11月提出“空间超感知”(Spatial Supersensing)新范式,核心理念是用“预测未来”替代“暴力记忆”,以实现真正意义上的持续、智能的视觉理解。该研究指出,现有多模态大模型(MLLMs)大多停留在“看图说话”(语义感知)和短时事件理解阶段,缺乏对长时序、动态3D空间环境的建模能力。为此,团队构建了VSI-SUPER基准,包含长时域视觉空间回忆(VSR)与持续视觉空间计数(VSC)两个任务,使用长达数小时的视频数据,严格测试模型的空间记忆与推理能力。测试结果令人震惊:主流商业模型如Gemini-Live和GPT-Realtime在10分钟视频上准确率不足15%,120分钟时几乎失效,暴露出“长上下文”并非“长理解”的本质缺陷。 问题根源在于,当前模型缺乏对空间动态的主动建模能力。团队提出四层演进分类法:从纯语言理解(0层)到语义感知(1层),再到流式事件认知(2层),隐式3D空间认知(3层),最终是预测性世界建模(4层)。当前模型普遍止步于前两层,而第四层——通过预测潜在世界状态进行“无意识推理”——几乎空白。为突破瓶颈,团队构建了VSI-590K数据集,融合真实视频、模拟数据与自动化伪标注,通过GroundingDINO、SAM2、VGGT等工具生成几何相关问答对,训练出Cambrian-S系列模型(0.5B–7B参数)。在VSI-Bench上,Cambrian-S-7B达67.5%准确率,显著超越InternVL3.5-8B、Qwen-VL-2.5-7B,甚至超过Gemini-2.5-Pro 16个百分点。 但更关键的突破在于“预测性感知”机制:在模型中引入潜在帧预测头,通过MLP预测下一帧的潜在表征,以预测误差作为“惊奇度”(surprise score)。低惊奇度帧被压缩存储,高惊奇度帧则保留细节,实现智能记忆管理。该机制使模型在120分钟视频上仍能维持约28%的VSC准确率,而商业模型已基本失效。同时,GPU内存使用稳定,验证了其可扩展性。该方法在VSR任务中也表现优异,性能随视频长度增长而稳定,远超Gemini 1.5/2.5 Flash。 业内专家认为,该研究标志着多模态AI从“被动记忆”向“主动认知”的范式跃迁。杨立昆评价:“真正的智能不在于记住多少,而在于如何用预测来指导注意力。”李飞飞指出,该工作为具身智能与世界建模提供了可操作的路径。谢赛宁团队强调,当前成果仅为初步探索,VSI-SUPER覆盖场景有限,数据集需进一步扩展,模型泛化能力待提升。未来将深化与具身智能、神经科学的融合,推动“预测-惊喜”机制的系统化发展。该论文、代码、模型与数据集已全面开源,为全球AI研究提供新基准与工具。 (约598字)
