Command Palette
Search for a command to run...
Vishaal Udandarao Shyamgopal Karthik Surabhi S. Nath Andreas Hochlehnert Matthias Bethge Ameya Prabhu

摘要
Cambrian-S旨在通过引入(i)两个新基准——VSI-Super-Recall(VSR)与VSI-Super-Counting(VSC),以及(ii)针对每个基准量身定制的预测性感知推理策略,迈出提升视频世界模型空间超感知能力的第一步。在本研究中,我们对Cambrian-S在这两个方向上的表现进行了深入分析。首先,我们提出一个简单基线模型NoSense,该模型几乎完全忽略时间结构,仅依赖一个词袋式的SigLIP模型,却几乎完美地解决了VSR任务,在长达4小时的视频上仍达到了95%的准确率。这一结果表明,像VSR这样的基准任务在无需空间认知、世界建模或空间超感知的情况下即可近乎完全解决。其次,我们假设Cambrian-S所提出的定制化推理方法可能利用了基准数据集中的捷径启发式(shortcut heuristics)。我们通过一个针对VSC基准的简单合理性检验——VSC-Repeat——来验证这一假设:将每个视频与其自身重复拼接1至5次,这一操作并未改变其中唯一物体的数量,但该简单扰动却导致Cambrian-S的平均相对准确率从42%骤降至0%。一个真正具备空间超感知能力并能整合多经验信息的系统,应当能够识别出同一场景的不同视角,并保持物体计数预测不变;然而,Cambrian-S的推理算法却严重依赖于VSC基准中的一个捷径——即房间不会被重复访问。综合来看,我们的研究发现表明:(i)当前的VSI-Super基准尚未能可靠衡量空间超感知能力;(ii)Cambrian-S所采用的预测性感知推理策略之所以提升性能,实则是无意中利用了数据集中的捷径,而非源于稳健的空间超感知机制。我们已在附录A中附上Cambrian-S作者的回应,以提供与本文观点相平衡的视角。