HyperAIHyperAI

Command Palette

Search for a command to run...

vor 17 Tagen

Cambrian-S: Hin zu einer räumlichen Supersensierung in Videos

Cambrian-S: Hin zu einer räumlichen Supersensierung in Videos

Abstract

Wir argumentieren, dass Fortschritte im Bereich echter multimodaler Intelligenz eine Verschiebung von reaktiven, auf Aufgaben ausgerichteten Systemen und roher, brutaler Langtextverarbeitung hin zu einem umfassenderen Paradigma des Supersensings erfordern. Wir definieren räumliches Supersensing als vier Stufen jenseits der rein sprachlichen Verarbeitung: semantische Wahrnehmung (Benennung dessen, was gesehen wird), fließende Ereigniskognition (Aufrechterhaltung von Gedächtnisinhalten über kontinuierliche Erfahrungen hinweg), implizite 3D-räumliche Kognition (Schlussfolgerung der Welt hinter den Pixeln) und prädiktive Weltmodellierung (Erstellung interner Modelle zur Filterung und Organisation von Informationen). Aktuelle Benchmark-Tests erfassen vorwiegend die frühen Stadien und bieten eine eingeschränkte Abdeckung räumlicher Kognition, wobei Modelle selten in Weise herausgefordert werden, die echte Weltmodellierung erfordern. Um Fortschritte im Bereich räumlichen Supersensings voranzutreiben, stellen wir VSI-SUPER vor, einen zweiteiligen Benchmark: VSR (long-horizon visuelle räumliche Erinnerung) und VSC (kontinuierliche visuelle räumliche Zählung). Diese Aufgaben erfordern beliebig lange Videoeingaben, sind jedoch resistent gegenüber einer bloßen Erweiterung des Kontextfensters durch brute-force-Strategien. Anschließend testen wir die Skalierbarkeitsgrenzen, indem wir VSI-590K kuratieren und Cambrian-S trainieren, wodurch eine absolute Verbesserung um +30 % auf VSI-Bench erzielt wird, ohne die allgemeinen Fähigkeiten zu beeinträchtigen. Dennoch bleibt die Leistung auf VSI-SUPER begrenzt, was darauf hindeutet, dass reine Skalierung allein nicht ausreicht, um räumliches Supersensing zu erreichen. Wir schlagen vor, prädiktives Sensing als zukünftigen Weg vor, und präsentieren einen Proof-of-Concept, bei dem ein selbstüberwachter Vorhersager für den nächsten Latent-Frame die Überraschung (Vorhersagefehler) nutzt, um Gedächtnisbildung und Ereignissegmentierung zu steuern. Auf VSI-SUPER übertrifft dieser Ansatz deutlich führende proprietäre Baselines, was zeigt, dass räumliches Supersensing Modelle erfordert, die nicht nur sehen, sondern auch vorhersagen, auswählen und die Erfahrung strukturieren können.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Cambrian-S: Hin zu einer räumlichen Supersensierung in Videos | Forschungsarbeiten | HyperAI