Command Palette
Search for a command to run...

摘要
我们主张,实现真正的多模态智能进步,需要从依赖任务驱动的反应式系统以及盲目堆砌长上下文的策略,转向一种更广泛的“超感知”范式。我们将空间超感知(spatial supersensing)定义为超越纯语言理解的四个阶段:语义感知(识别所见内容)、流式事件认知(在连续体验中保持记忆)、隐式三维空间认知(从像素背后推断世界结构)以及预测性世界建模(构建内部模型以过滤和组织信息)。当前的评估基准大多仅测试前两个阶段,对空间认知的覆盖范围狭窄,且极少设计能够真正检验模型世界建模能力的挑战性任务。为推动空间超感知的发展,我们提出VSI-SUPER,一个由两部分组成的基准测试:VSR(长时程视觉空间回忆)和VSC(持续性视觉空间计数)。这两项任务要求模型处理任意长度的视频输入,同时对暴力扩展上下文的策略具有强鲁棒性。我们通过构建VSI-590K数据集并训练Cambrian-S模型,验证了数据规模的极限,结果在VSI-Bench上实现了超过30%的绝对性能提升,同时未损害模型的通用能力。然而,模型在VSI-SUPER上的表现仍受限,表明仅靠规模扩张不足以实现空间超感知。为此,我们提出“预测性感知”作为前进路径,并展示了一个概念验证:一个自监督的下一潜在帧预测器,通过利用“意外性”(即预测误差)来驱动记忆形成与事件分割。在VSI-SUPER上,该方法显著优于当前主流的专有基线模型,表明真正实现空间超感知,需要模型不仅“看见”,更需具备“预见、选择与组织”经验的能力。