HyperAIHyperAI

Command Palette

Search for a command to run...

vor einem Tag

Lösen des räumlichen Supersensing ohne räumliches Supersensing

Vishaal Udandarao Shyamgopal Karthik Surabhi S. Nath Andreas Hochlehnert Matthias Bethge Ameya Prabhu

Lösen des räumlichen Supersensing ohne räumliches Supersensing

Abstract

Cambrian-S zielt darauf ab, die ersten Schritte zur Verbesserung von Video-Weltmodellen mittels räumlicher Supersensierung zu unternehmen, indem (i) zwei Benchmarks eingeführt werden: VSI-Super-Recall (VSR) und VSI-Super-Counting (VSC), sowie (ii) maßgeschneiderte prädiktive Sensierungsinferenzstrategien, die jeweils an die spezifischen Anforderungen der Benchmarks angepasst sind. In dieser Arbeit führen wir eine kritische Analyse von Cambrian-S auf beiden Ebenen durch. Zunächst stellen wir eine einfache Baseline namens NoSense vor, die nahezu sämtliche zeitliche Struktur vernachlässigt und lediglich ein Bag-of-Words-SigLIP-Modell nutzt. Dennoch löst sie VSR nahezu perfekt, erreicht eine Genauigkeit von 95 % – selbst bei 4-stündigen Videos. Dies zeigt, dass Benchmarks wie VSR nahezu ohne räumliche Wahrnehmung, Weltmodellierung oder räumliche Supersensierung gelöst werden können. Zweitens vermuten wir, dass die von Cambrian-S vorgeschlagenen spezifischen Inferenzmethoden möglicherweise Kurzschlussheuristiken in den Benchmarks ausnutzen. Dies illustrieren wir anhand einer einfachen Plausibilitätsprüfung am VSC-Benchmark, die als VSC-Repeat bezeichnet wird: Wir hängen jedes Video 1 bis 5-mal an sich selbst an, wodurch sich die Anzahl eindeutiger Objekte nicht verändert. Dennoch führt diese einfache Störung dazu, dass die mittlere relative Genauigkeit von Cambrian-S von 42 % auf 0 % absinkt. Ein System, das räumliche Supersensierung betreibt und Informationen über mehrere Erfahrungen hinweg integriert, sollte identische Szenenwiedergaben erkennen und die Objektzählvorhersagen unverändert lassen; stattdessen basiert die Inferenzstrategie von Cambrian-S weitgehend auf einer Kurzschlussheuristik im VSC-Benchmark, nach der Räume niemals wieder besucht werden. Zusammenfassend deuten unsere Ergebnisse darauf hin, dass (i) die derzeitigen VSI-Super-Benchmarks noch nicht zuverlässig räumliche Supersensierung messen, und (ii) die prädiktiven Sensierungsinferenzrezepte von Cambrian-S die Leistung nicht durch robuste räumliche Supersensierung, sondern durch unbeabsichtigtes Ausnutzen von Kurzschlüssen verbessern. Wir fügen die Stellungnahme der Autoren von Cambrian-S (im Anhang A) hinzu, um eine ausgewogene Perspektive neben unseren Aussagen zu bieten.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Lösen des räumlichen Supersensing ohne räumliches Supersensing | Forschungsarbeiten | HyperAI