Command Palette
Search for a command to run...
Vishaal Udandarao Shyamgopal Karthik Surabhi S. Nath Andreas Hochlehnert Matthias Bethge Ameya Prabhu

초록
Cambrian-S는 공간 초감각(spacial supersensing)을 활용하여 영상 세계 모델(world models)의 성능을 향상시키기 위한 첫걸음을 내딛기 위해 (i) 두 가지 벤치마크인 VSI-Super-Recall(VSR)과 VSI-Super-Counting(VSC)를 도입하고, (ii) 각 벤치마크에 맞춰 특화된 예측 감각 추론 전략을 제안한다. 본 연구에서는 Cambrian-S의 이러한 두 가지 접근 방식에 대해 철저한 분석을 수행한다. 먼저, 거의 모든 시계열 구조를 무시하고 단지 Bag-of-Words 형식의 SigLIP 모델만을 사용하는 간단한 베이스라인인 NoSense를 제시한다. 이 베이스라인은 VSR을 거의 완벽하게 해결하며, 4시간 분량의 영상에서도 95%의 정확도를 달성한다. 이는 공간 인지, 세계 모델링, 또는 공간 초감각 없이도 VSR과 같은 벤치마크는 거의 완전히 해결 가능함을 보여준다. 두 번째로, Cambrian-S가 제안한 특화된 추론 방법이 벤치마크 내에 존재하는 단순화된 힌트(heuristics)를 악용하고 있을 것이라 추측한다. 이를 VSC 벤치마크에 대한 간단한 타당성 검증인 VSC-Repeat을 통해 입증한다. 이 실험에서는 각 영상을 1~5회 반복하여 자기 자신과 연결한다. 이 과정은 고유 객체의 수에는 영향을 주지 않지만, Cambrian-S의 평균 상대 정확도는 42%에서 0%로 완전히 붕괴된다. 공간 초감각을 수행하고 경험 간 정보를 통합하는 시스템이라면 동일한 장면의 영상들을 인식하고 객체 수 예측을 유지해야 하지만, Cambrian-S의 추론 알고리즘은 오히려 VSC 벤치마크의 단순한 힌트—즉, 방이 다시 방문되지 않는다는 점—에 의존하고 있다. 종합적으로 본 연구의 결과는 (i) 현재의 VSI-Super 벤치마크는 공간 초감각을 신뢰할 수 있게 측정하지 못하고 있으며, (ii) Cambrian-S가 사용하는 예측 감각 추론 전략은 강건한 공간 초감각을 통해 성능을 향상시키는 것이 아니라, 의도치 않게 벤치마크 내의 단순화된 힌트를 악용함으로써 성능 향상을 달성하고 있음을 시사한다. 본 연구의 주장과 균형 잡힌 시각을 제공하기 위해, Cambrian-S 저자들의 반응(부록 A)도 함께 수록하였다.