HyperAI

近年来，随着多模态大模型在图像、视频理解任务中不断取得进展，一个根本性问题逐渐浮出水面：当前主流模型在处理长时序、连续的视觉输入时，表现严重退化。谢赛宁团队在2025年11月发表的论文《Cambrian-S: Towards Spatial Supersensing in Video》中，联合杨立昆、李飞飞等学者，系统性地指出，当前多模态大语言模型（MLLMs）在真正意义上的“空间感知”上存在系统性缺陷，其根源不在于算力或参数规模，而在于范式本身的局限。团队提出“空间超感知”（Spatial Supersensing）新范式，将多模态智能划分为四个演进层级：从纯语言理解，到语义感知，再到流式事件认知，最终抵达以“预测性世界建模”为核心的第四层。当前大多数模型仅停留在前两层，少数触及第三层，而第四层——即通过预测未来状态来实现高效感知——几乎完全缺失。为验证这一判断，研究团队构建了全新的基准测试VSI-SUPER，包含“长时域视觉空间回忆”（VSR）和“持续视觉空间计数”（VSC）两个任务，均使用长达数小时的视频数据。测试结果令人震惊：即便标榜“长上下文”的商业模型如Gemini-Live和GPT-Realtime，在10分钟视频上的平均准确率不足15%，120分钟时几乎完全失效。这表明，仅靠扩大上下文窗口，并不能解决真实世界中持续感知的挑战。问题的症结在于，现有模型缺乏对空间动态的深层建模能力。为此，团队开发了VSI-590K数据集，涵盖59万条高质量视频指令样本，通过自动化流程结合GroundingDINO、SAM2和VGGT等工具，生成结构化、几何相关的问答对。基于此，他们训练出Cambrian-S系列模型，参数量从0.5B到7B不等，采用四阶段训练策略，逐步提升空间理解能力。实验显示，Cambrian-S-7B在VSI-Bench上达到67.5%的准确率，显著超越开源与商业基线，包括InternVL3.5-8B、Qwen-VL-2.5-7B和Gemini-2.5-Pro。更关键的是，当引入“预测性感知”机制后，模型性能出现质的飞跃。该机制在推理时预测下一帧的潜在表征，以预测误差作为“惊奇度”指标：低惊奇度的帧被压缩存储，高惊奇度的帧则被重点保留。这模拟了人脑“关注意外”的认知机制，使模型能以有限记忆处理无限流。在VSC任务中，模型通过“事件缓冲区”与惊奇度检测，自动分割连续视频为语义事件单元，实现高效记忆管理。在120分钟视频上，Cambrian-S仍保持约28%的准确率，而其他模型已基本失效。同时，其GPU内存使用量稳定，未随视频长度增长而激增。尽管如此，研究团队强调，这仍是一次初步探索。VSI-SUPER基准、数据集和模型均需进一步扩展，预测机制也需深化。未来工作将聚焦于更复杂、具身化的场景，推动预测性感知与多模态建模的深度融合。归根结底，大模型在长视频任务中的“失明”，并非因“记不住”，而是“不会看”。真正的智能，不在于记忆的广度，而在于对世界的主动理解与预测。而这一转变，或许正是通往真正具身智能的关键一步。相关代码、模型与数据已全面开源，为后续研究提供坚实基础。

الروابط ذات الصلة

الروابط ذات الصلة

الروابط ذات الصلة

ما وراء الواقع المرئي: نظام التقييم الجديد في تسينغهوا وورلد أرينا يكشف عن فجوة القدرات في نماذج العالم المجسد

ما وراء الواقع المرئي: نظام التقييم الجديد في تسينغهوا وورلد أرينا يكشف عن فجوة القدرات في نماذج العالم المجسد

Command Palette

长视频让大模型集体失明？谢赛宁、杨立昆、李飞飞等提出空间超感知范式，用“预测未来”破解感知瓶颈

الروابط ذات الصلة

Command Palette

长视频让大模型集体失明？谢赛宁、杨立昆、李飞飞等提出空间超感知范式，用“预测未来”破解感知瓶颈

الروابط ذات الصلة

Command Palette

长视频让大模型集体失明？谢赛宁、杨立昆、李飞飞等提出空间超感知范式，用“预测未来”破解感知瓶颈

الروابط ذات الصلة

ما وراء الواقع المرئي: نظام التقييم الجديد في تسينغهوا وورلد أرينا يكشف عن فجوة القدرات في نماذج العالم المجسد

ما وراء الواقع المرئي: نظام التقييم الجديد في تسينغهوا وورلد أرينا يكشف عن فجوة القدرات في نماذج العالم المجسد