HyperAIHyperAI

Command Palette

Search for a command to run...

il y a un jour

Résoudre la supersensibilité spatiale sans supersensibilité spatiale

Vishaal Udandarao Shyamgopal Karthik Surabhi S. Nath Andreas Hochlehnert Matthias Bethge Ameya Prabhu

Résoudre la supersensibilité spatiale sans supersensibilité spatiale

Résumé

Cambrian-S vise à franchir les premiers pas vers l'amélioration des modèles mondiaux vidéo par une superperception spatiale, en introduisant (i) deux benchmarks, VSI-Super-Recall (VSR) et VSI-Super-Counting (VSC), ainsi que (ii) des stratégies d'inférence prédictive spécifiquement conçues pour chacun de ces benchmarks. Dans ce travail, nous menons une analyse critique de Cambrian-S sur ces deux axes. Premièrement, nous proposons une base simple, NoSense, qui élimine presque toute structure temporelle et n'utilise qu'un modèle SigLIP basé sur une « pochette de mots » (bag-of-words), tout en résolvant presque parfaitement le benchmark VSR, avec une précision de 95 % même sur des vidéos de 4 heures. Cela montre que des benchmarks comme VSR peuvent être résolus presque entièrement sans cognition spatiale, sans modélisation du monde ni superperception spatiale. Deuxièmement, nous supposons que les méthodes d'inférence spécifiquement conçues par Cambrian-S exploitent probablement des heuristiques de raccourci présentes dans les benchmarks. Nous illustrons ce phénomène à l’aide d’un simple test de vérification de cohérence sur le benchmark VSC, appelé VSC-Repeat : nous concaténons chaque vidéo avec elle-même de 1 à 5 fois, ce qui ne modifie pas le nombre d’objets uniques présents. Pourtant, cette perturbation simple fait s’effondrer complètement la précision relative moyenne de Cambrian-S, passant de 42 % à 0 %. Un système véritablement capable de superperception spatiale et capable d’intégrer l’information au fil des expériences devrait reconnaître les vues de la même scène et maintenir inchangées les prédictions du nombre d’objets ; or, l’algorithme d’inférence de Cambrian-S dépend largement d’un raccourci présent dans le benchmark VSC, selon lequel les pièces ne sont jamais revisitées. Ensemble, nos résultats suggèrent que (i) les benchmarks actuels VSI-Super ne mesurent pas encore de manière fiable la superperception spatiale, et (ii) les recettes d’inférence prédictive utilisées par Cambrian-S améliorent les performances non pas grâce à une superperception spatiale robuste, mais en exploitant involontairement des raccourcis. Nous incluons la réponse des auteurs de Cambrian-S (en Annexe A) afin de proposer une perspective équilibrée à côté de nos constatations.

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Résoudre la supersensibilité spatiale sans supersensibilité spatiale | Articles de recherche | HyperAI