Command Palette
Search for a command to run...
Cambrian-S : Vers une supersensibilité spatiale dans la vidéo

Résumé
Nous soutenons que les progrès vers une intelligence multimodale véritable nécessitent un changement de paradigme, passant des systèmes réactifs et pilotés par tâches, ainsi que des approches par force brute basées sur de longs contextes, vers un cadre plus large dite « supersensibilité » (supersensing). Nous définissons la supersensibilité spatiale en quatre étapes allant au-delà de la simple compréhension linguistique : la perception sémantique (identifier ce qui est vu), la cognition événementielle en flux (maintenir une mémoire à travers des expériences continues), la cognition spatiale implicite en 3D (inférer le monde derrière les pixels) et la modélisation prédictive du monde (construire des modèles internes capables de filtrer et d’organiser l’information). Les évaluations actuelles testent principalement les premières étapes, offrant une couverture restreinte de la cognition spatiale et rarement soumettant les modèles à des défis exigeant une véritable modélisation du monde. Pour stimuler les progrès dans la supersensibilité spatiale, nous introduisons VSI-SUPER, un benchmark en deux parties : VSR (rappel visuel spatial à horizon long) et VSC (comptage visuel spatial continu). Ces tâches exigent des entrées vidéo arbitrairement longues, tout en résistant aux expansions de contexte par force brute. Ensuite, nous testons les limites de l’effet d’échelle en curant le jeu de données VSI-590K et en entraînant Cambrian-S, obtenant une amélioration absolue de +30 % sur VSI-Bench sans compromettre les capacités générales. Pourtant, les performances sur VSI-SUPER restent limitées, indiquant qu’une simple augmentation d’échelle ne suffit pas à atteindre la supersensibilité spatiale. Nous proposons la « perception prédictive » comme voie d’avenir, en présentant un prototype montrant qu’un prédicteur auto-supervisé de prochaine image latente peut exploiter la « surprise » (l’erreur de prédiction) pour guider la mémoire et la segmentation d’événements. Sur VSI-SUPER, cette approche surpasse largement les meilleures solutions propriétaires actuelles, démontrant que la supersensibilité spatiale exige des modèles capables non seulement de voir, mais aussi d’anticiper, de sélectionner et d’organiser l’expérience.
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.