Cambrian-S: Hin zu einer räumlichen Supersensierung in Videos

Abstract
Wir argumentieren, dass Fortschritte im Bereich echter multimodaler Intelligenz eine Verschiebung von reaktiven, auf Aufgaben ausgerichteten Systemen und roher, brutaler Langtextverarbeitung hin zu einem umfassenderen Paradigma des Supersensings erfordern. Wir definieren räumliches Supersensing als vier Stufen jenseits der rein sprachlichen Verarbeitung: semantische Wahrnehmung (Benennung dessen, was gesehen wird), fließende Ereigniskognition (Aufrechterhaltung von Gedächtnisinhalten über kontinuierliche Erfahrungen hinweg), implizite 3D-räumliche Kognition (Schlussfolgerung der Welt hinter den Pixeln) und prädiktive Weltmodellierung (Erstellung interner Modelle zur Filterung und Organisation von Informationen). Aktuelle Benchmark-Tests erfassen vorwiegend die frühen Stadien und bieten eine eingeschränkte Abdeckung räumlicher Kognition, wobei Modelle selten in Weise herausgefordert werden, die echte Weltmodellierung erfordern. Um Fortschritte im Bereich räumlichen Supersensings voranzutreiben, stellen wir VSI-SUPER vor, einen zweiteiligen Benchmark: VSR (long-horizon visuelle räumliche Erinnerung) und VSC (kontinuierliche visuelle räumliche Zählung). Diese Aufgaben erfordern beliebig lange Videoeingaben, sind jedoch resistent gegenüber einer bloßen Erweiterung des Kontextfensters durch brute-force-Strategien. Anschließend testen wir die Skalierbarkeitsgrenzen, indem wir VSI-590K kuratieren und Cambrian-S trainieren, wodurch eine absolute Verbesserung um +30 % auf VSI-Bench erzielt wird, ohne die allgemeinen Fähigkeiten zu beeinträchtigen. Dennoch bleibt die Leistung auf VSI-SUPER begrenzt, was darauf hindeutet, dass reine Skalierung allein nicht ausreicht, um räumliches Supersensing zu erreichen. Wir schlagen vor, prädiktives Sensing als zukünftigen Weg vor, und präsentieren einen Proof-of-Concept, bei dem ein selbstüberwachter Vorhersager für den nächsten Latent-Frame die Überraschung (Vorhersagefehler) nutzt, um Gedächtnisbildung und Ereignissegmentierung zu steuern. Auf VSI-SUPER übertrifft dieser Ansatz deutlich führende proprietäre Baselines, was zeigt, dass räumliches Supersensing Modelle erfordert, die nicht nur sehen, sondern auch vorhersagen, auswählen und die Erfahrung strukturieren können.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.