Lösen des räumlichen Supersensing ohne räumliches Supersensing
Vishaal Udandarao Shyamgopal Karthik Surabhi S. Nath Andreas Hochlehnert Matthias Bethge Ameya Prabhu

Abstract
Cambrian-S zielt darauf ab, die ersten Schritte zur Verbesserung von Video-Weltmodellen mittels räumlicher Supersensierung zu unternehmen, indem (i) zwei Benchmarks eingeführt werden: VSI-Super-Recall (VSR) und VSI-Super-Counting (VSC), sowie (ii) maßgeschneiderte prädiktive Sensierungsinferenzstrategien, die jeweils an die spezifischen Anforderungen der Benchmarks angepasst sind. In dieser Arbeit führen wir eine kritische Analyse von Cambrian-S auf beiden Ebenen durch. Zunächst stellen wir eine einfache Baseline namens NoSense vor, die nahezu sämtliche zeitliche Struktur vernachlässigt und lediglich ein Bag-of-Words-SigLIP-Modell nutzt. Dennoch löst sie VSR nahezu perfekt, erreicht eine Genauigkeit von 95 % – selbst bei 4-stündigen Videos. Dies zeigt, dass Benchmarks wie VSR nahezu ohne räumliche Wahrnehmung, Weltmodellierung oder räumliche Supersensierung gelöst werden können. Zweitens vermuten wir, dass die von Cambrian-S vorgeschlagenen spezifischen Inferenzmethoden möglicherweise Kurzschlussheuristiken in den Benchmarks ausnutzen. Dies illustrieren wir anhand einer einfachen Plausibilitätsprüfung am VSC-Benchmark, die als VSC-Repeat bezeichnet wird: Wir hängen jedes Video 1 bis 5-mal an sich selbst an, wodurch sich die Anzahl eindeutiger Objekte nicht verändert. Dennoch führt diese einfache Störung dazu, dass die mittlere relative Genauigkeit von Cambrian-S von 42 % auf 0 % absinkt. Ein System, das räumliche Supersensierung betreibt und Informationen über mehrere Erfahrungen hinweg integriert, sollte identische Szenenwiedergaben erkennen und die Objektzählvorhersagen unverändert lassen; stattdessen basiert die Inferenzstrategie von Cambrian-S weitgehend auf einer Kurzschlussheuristik im VSC-Benchmark, nach der Räume niemals wieder besucht werden. Zusammenfassend deuten unsere Ergebnisse darauf hin, dass (i) die derzeitigen VSI-Super-Benchmarks noch nicht zuverlässig räumliche Supersensierung messen, und (ii) die prädiktiven Sensierungsinferenzrezepte von Cambrian-S die Leistung nicht durch robuste räumliche Supersensierung, sondern durch unbeabsichtigtes Ausnutzen von Kurzschlüssen verbessern. Wir fügen die Stellungnahme der Autoren von Cambrian-S (im Anhang A) hinzu, um eine ausgewogene Perspektive neben unseren Aussagen zu bieten.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.