HyperAIHyperAI

Command Palette

Search for a command to run...

长视频让大模型集体失明?谢赛宁、杨立昆、李飞飞等提出空间超感知范式,用“预测未来”破解感知瓶颈

近年来,随着多模态大模型在图像、视频理解任务中不断取得进展,一个根本性问题逐渐浮出水面:当前主流模型在处理长时序、连续的视觉输入时,表现严重退化。谢赛宁团队在2025年11月发表的论文《Cambrian-S: Towards Spatial Supersensing in Video》中,联合杨立昆、李飞飞等学者,系统性地指出,当前多模态大语言模型(MLLMs)在真正意义上的“空间感知”上存在系统性缺陷,其根源不在于算力或参数规模,而在于范式本身的局限。 团队提出“空间超感知”(Spatial Supersensing)新范式,将多模态智能划分为四个演进层级:从纯语言理解,到语义感知,再到流式事件认知,最终抵达以“预测性世界建模”为核心的第四层。当前大多数模型仅停留在前两层,少数触及第三层,而第四层——即通过预测未来状态来实现高效感知——几乎完全缺失。 为验证这一判断,研究团队构建了全新的基准测试VSI-SUPER,包含“长时域视觉空间回忆”(VSR)和“持续视觉空间计数”(VSC)两个任务,均使用长达数小时的视频数据。测试结果令人震惊:即便标榜“长上下文”的商业模型如Gemini-Live和GPT-Realtime,在10分钟视频上的平均准确率不足15%,120分钟时几乎完全失效。这表明,仅靠扩大上下文窗口,并不能解决真实世界中持续感知的挑战。 问题的症结在于,现有模型缺乏对空间动态的深层建模能力。为此,团队开发了VSI-590K数据集,涵盖59万条高质量视频指令样本,通过自动化流程结合GroundingDINO、SAM2和VGGT等工具,生成结构化、几何相关的问答对。基于此,他们训练出Cambrian-S系列模型,参数量从0.5B到7B不等,采用四阶段训练策略,逐步提升空间理解能力。 实验显示,Cambrian-S-7B在VSI-Bench上达到67.5%的准确率,显著超越开源与商业基线,包括InternVL3.5-8B、Qwen-VL-2.5-7B和Gemini-2.5-Pro。更关键的是,当引入“预测性感知”机制后,模型性能出现质的飞跃。该机制在推理时预测下一帧的潜在表征,以预测误差作为“惊奇度”指标:低惊奇度的帧被压缩存储,高惊奇度的帧则被重点保留。这模拟了人脑“关注意外”的认知机制,使模型能以有限记忆处理无限流。 在VSC任务中,模型通过“事件缓冲区”与惊奇度检测,自动分割连续视频为语义事件单元,实现高效记忆管理。在120分钟视频上,Cambrian-S仍保持约28%的准确率,而其他模型已基本失效。同时,其GPU内存使用量稳定,未随视频长度增长而激增。 尽管如此,研究团队强调,这仍是一次初步探索。VSI-SUPER基准、数据集和模型均需进一步扩展,预测机制也需深化。未来工作将聚焦于更复杂、具身化的场景,推动预测性感知与多模态建模的深度融合。 归根结底,大模型在长视频任务中的“失明”,并非因“记不住”,而是“不会看”。真正的智能,不在于记忆的广度,而在于对世界的主动理解与预测。而这一转变,或许正是通往真正具身智能的关键一步。相关代码、模型与数据已全面开源,为后续研究提供坚实基础。

الروابط ذات الصلة