Command Palette
Search for a command to run...
Vishaal Udandarao Shyamgopal Karthik Surabhi S. Nath Andreas Hochlehnert Matthias Bethge Ameya Prabhu

要約
Cambrian-Sは、空間的超感知(spatial supersensing)を用いた動画世界モデルの改善に向けた第一歩を踏み出すことを目的としており、(i) VSI-Super-Recall(VSR)およびVSI-Super-Counting(VSC)の2つのベンチマークを導入し、(ii) 各ベンチマークに特化した予測的感知推論戦略を提案している。本研究では、これらの2つの側面について、批判的分析を実施する。まず、時間的構造をほぼ完全に無視し、bag-of-words型のSigLIPモデルのみを用いるシンプルなベースライン「NoSense」を導入する。この手法は、VSRをほぼ完璧に解くことができ、4時間の動画に対しても95%の精度を達成する。この結果は、VSRのようなベンチマークは、空間的認知や世界モデル、空間的超感知を用いずにほぼ解くことが可能であることを示している。次に、Cambrian-Sが提案する特化型推論手法が、ベンチマークに内在する「短絡的ヒューリスティクス(shortcut heuristics)」を活用していると仮定する。この仮説を、VSCベンチマークに対して簡単な妥当性チェック(sanity check)である「VSC-Repeat」により検証する。具体的には、各動画を自身と1〜5回連結するという単純な摂動を加える。これにより、ユニークな物体の数は変化しないが、Cambrian-Sの平均相対精度は42%から0%へと完全に崩壊する。空間的超感知を実現し、経験間の情報を統合できるシステムであれば、同じシーンのビューを認識し、物体数の予測値を変化させないはずである。しかし、Cambrian-Sの推論アルゴリズムは、実際には「部屋は再訪問されない」というベンチマーク内の短絡的ヒューリスティクスに大きく依存している。以上の結果から、(i) 現在のVSI-Superベンチマークは空間的超感知を信頼できる形で測定できていないこと、および(ii) Cambrian-Sが採用する予測的感知推論手法は、堅牢な空間的超感知に基づくものではなく、むしろ意図せず短絡的なヒューリスティクスを悪用することで性能向上を達成している可能性が高いことが示唆される。本研究では、これらの主張に対し、Cambrian-Sの著者らの反論(付録A)を併記することで、よりバランスの取れた視点を提供する。