Command Palette
Search for a command to run...
Lösen des räumlichen Supersensing ohne räumliches Supersensing
Lösen des räumlichen Supersensing ohne räumliches Supersensing
Vishaal Udandarao Shyamgopal Karthik Surabhi S. Nath Andreas Hochlehnert Matthias Bethge Ameya Prabhu
Zusammenfassung
Cambrian-S zielt darauf ab, die ersten Schritte zur Verbesserung von Video-Weltmodellen mittels räumlicher Supersensierung zu unternehmen, indem (i) zwei Benchmarks eingeführt werden: VSI-Super-Recall (VSR) und VSI-Super-Counting (VSC), sowie (ii) maßgeschneiderte prädiktive Sensierungsinferenzstrategien, die jeweils an die spezifischen Anforderungen der Benchmarks angepasst sind. In dieser Arbeit führen wir eine kritische Analyse von Cambrian-S auf beiden Ebenen durch. Zunächst stellen wir eine einfache Baseline namens NoSense vor, die nahezu sämtliche zeitliche Struktur vernachlässigt und lediglich ein Bag-of-Words-SigLIP-Modell nutzt. Dennoch löst sie VSR nahezu perfekt, erreicht eine Genauigkeit von 95 % – selbst bei 4-stündigen Videos. Dies zeigt, dass Benchmarks wie VSR nahezu ohne räumliche Wahrnehmung, Weltmodellierung oder räumliche Supersensierung gelöst werden können. Zweitens vermuten wir, dass die von Cambrian-S vorgeschlagenen spezifischen Inferenzmethoden möglicherweise Kurzschlussheuristiken in den Benchmarks ausnutzen. Dies illustrieren wir anhand einer einfachen Plausibilitätsprüfung am VSC-Benchmark, die als VSC-Repeat bezeichnet wird: Wir hängen jedes Video 1 bis 5-mal an sich selbst an, wodurch sich die Anzahl eindeutiger Objekte nicht verändert. Dennoch führt diese einfache Störung dazu, dass die mittlere relative Genauigkeit von Cambrian-S von 42 % auf 0 % absinkt. Ein System, das räumliche Supersensierung betreibt und Informationen über mehrere Erfahrungen hinweg integriert, sollte identische Szenenwiedergaben erkennen und die Objektzählvorhersagen unverändert lassen; stattdessen basiert die Inferenzstrategie von Cambrian-S weitgehend auf einer Kurzschlussheuristik im VSC-Benchmark, nach der Räume niemals wieder besucht werden. Zusammenfassend deuten unsere Ergebnisse darauf hin, dass (i) die derzeitigen VSI-Super-Benchmarks noch nicht zuverlässig räumliche Supersensierung messen, und (ii) die prädiktiven Sensierungsinferenzrezepte von Cambrian-S die Leistung nicht durch robuste räumliche Supersensierung, sondern durch unbeabsichtigtes Ausnutzen von Kurzschlüssen verbessern. Wir fügen die Stellungnahme der Autoren von Cambrian-S (im Anhang A) hinzu, um eine ausgewogene Perspektive neben unseren Aussagen zu bieten.