HyperAI

Zusammenfassung

Wir argumentieren, dass Fortschritte im Bereich echter multimodaler Intelligenz eine Verschiebung von reaktiven, auf Aufgaben ausgerichteten Systemen und roher, brutaler Langtextverarbeitung hin zu einem umfassenderen Paradigma des Supersensings erfordern. Wir definieren räumliches Supersensing als vier Stufen jenseits der rein sprachlichen Verarbeitung: semantische Wahrnehmung (Benennung dessen, was gesehen wird), fließende Ereigniskognition (Aufrechterhaltung von Gedächtnisinhalten über kontinuierliche Erfahrungen hinweg), implizite 3D-räumliche Kognition (Schlussfolgerung der Welt hinter den Pixeln) und prädiktive Weltmodellierung (Erstellung interner Modelle zur Filterung und Organisation von Informationen). Aktuelle Benchmark-Tests erfassen vorwiegend die frühen Stadien und bieten eine eingeschränkte Abdeckung räumlicher Kognition, wobei Modelle selten in Weise herausgefordert werden, die echte Weltmodellierung erfordern. Um Fortschritte im Bereich räumlichen Supersensings voranzutreiben, stellen wir VSI-SUPER vor, einen zweiteiligen Benchmark: VSR (long-horizon visuelle räumliche Erinnerung) und VSC (kontinuierliche visuelle räumliche Zählung). Diese Aufgaben erfordern beliebig lange Videoeingaben, sind jedoch resistent gegenüber einer bloßen Erweiterung des Kontextfensters durch brute-force-Strategien. Anschließend testen wir die Skalierbarkeitsgrenzen, indem wir VSI-590K kuratieren und Cambrian-S trainieren, wodurch eine absolute Verbesserung um +30 % auf VSI-Bench erzielt wird, ohne die allgemeinen Fähigkeiten zu beeinträchtigen. Dennoch bleibt die Leistung auf VSI-SUPER begrenzt, was darauf hindeutet, dass reine Skalierung allein nicht ausreicht, um räumliches Supersensing zu erreichen. Wir schlagen vor, prädiktives Sensing als zukünftigen Weg vor, und präsentieren einen Proof-of-Concept, bei dem ein selbstüberwachter Vorhersager für den nächsten Latent-Frame die Überraschung (Vorhersagefehler) nutzt, um Gedächtnisbildung und Ereignissegmentierung zu steuern. Auf VSI-SUPER übertrifft dieser Ansatz deutlich führende proprietäre Baselines, was zeigt, dass räumliches Supersensing Modelle erfordert, die nicht nur sehen, sondern auch vorhersagen, auswählen und die Erfahrung strukturieren können.

Zusammenfassung

Shusheng Yang Jihan Yang Pinzhi Huang Ellis Brown Zihao Yang Yue Yu Shengbang Tong Zihan Zheng Yifan Xu Muhan Wang

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Shusheng Yang Jihan Yang Pinzhi Huang Ellis Brown Zihao Yang Yue Yu Shengbang Tong Zihan Zheng Yifan Xu Muhan Wang

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Shusheng Yang Jihan Yang Pinzhi Huang Ellis Brown Zihao Yang Yue Yu Shengbang Tong Zihan Zheng Yifan Xu Muhan Wang

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Cambrian-S: Hin zu einer räumlichen Supersensierung in Videos

Shusheng Yang Jihan Yang Pinzhi Huang Ellis Brown Zihao Yang Yue Yu Shengbang Tong Zihan Zheng Yifan Xu Muhan Wang5 more

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Cambrian-S: Hin zu einer räumlichen Supersensierung in Videos

Shusheng Yang Jihan Yang Pinzhi Huang Ellis Brown Zihao Yang Yue Yu Shengbang Tong Zihan Zheng Yifan Xu Muhan Wang5 more

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Cambrian-S: Hin zu einer räumlichen Supersensierung in Videos

Shusheng Yang Jihan Yang Pinzhi Huang Ellis Brown Zihao Yang Yue Yu Shengbang Tong Zihan Zheng Yifan Xu Muhan Wang5 more

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Shusheng Yang Jihan Yang Pinzhi Huang Ellis Brown Zihao Yang Yue Yu Shengbang Tong Zihan Zheng Yifan Xu Muhan Wang

Shusheng Yang Jihan Yang Pinzhi Huang Ellis Brown Zihao Yang Yue Yu Shengbang Tong Zihan Zheng Yifan Xu Muhan Wang

Shusheng Yang Jihan Yang Pinzhi Huang Ellis Brown Zihao Yang Yue Yu Shengbang Tong Zihan Zheng Yifan Xu Muhan Wang