长视频让大模型“失明”?谢赛宁、杨立昆、李飞飞团队提出“预测未来”新范式,破解空间感知困局
Les modèles d’intelligence artificielle actuels, malgré leurs capacités impressionnantes en traitement de texte et d’image, peinent face aux vidéos longues. Une équipe menée par Saining Xie, avec la participation d’Yann LeCun et de Fei-Fei Li, a récemment pointé un problème fondamental : les modèles multimodaux actuels, en dépit de leur prétendue « intelligence » supérieure, manquent d’une véritable perception spatiale. Leur approche, détaillée dans le papier Cambrian-S: Towards Spatial Supersensing in Video, proposée en novembre 2025, s’inscrit dans une réflexion profonde sur la nature de la perception par l’IA, en s’inspirant de la manière dont l’esprit humain perçoit le monde. L’équipe a d’abord établi une classification en quatre niveaux d’intelligence perceptive : 1. Compréhension linguistique (niveau zéro) : interprétation de textes. 2. Perception sémantique (niveau un) : description d’images (« voir et décrire »). 3. Cognition événementielle en flux (niveau deux) : compréhension en temps réel d’actions. 4. Modélisation prédictive du monde (niveau trois) : anticipation des changements spatiaux, basée sur une compréhension profonde de l’environnement 3D. La plupart des modèles actuels, y compris les plus avancés comme Gemini ou GPT-Realtime, s’arrêtent au niveau deux, voire ne dépassent pas le niveau un. Même les modèles présentés comme capables de gérer de longues séquences (« long context ») échouent lamentablement lorsqu’ils doivent suivre des vidéos de plusieurs heures. Leur performance chute presque à zéro au-delà de 10 minutes, malgré des capacités de mémoire étendue. Pour évaluer ce manque, l’équipe a conçu un nouveau benchmark, VSI-SUPER, qui met à l’épreuve deux tâches exigeantes : - VSR (Visual Spatial Recall) : rappel de détails spatiaux sur des vidéos longues. - VSC (Visual Spatial Counting) : comptage d’objets ou d’événements dans un flux visuel continu. Les résultats ont été frappants : des modèles commerciaux comme Gemini-Live et GPT-Realtime affichent une précision moyenne inférieure à 15 % sur 10 minutes, et pratiquement nulle à 120 minutes. Ces échecs ne sont pas dus à une faiblesse technique, mais à une limitation de paradigme. Les modèles actuels stockent passivement les données, sans stratégie d’attention ou de compression intelligente. Pour répondre à ce défi, l’équipe a développé Cambrian-S, un modèle multimodal de 0,5 à 7 milliards de paramètres, entraîné sur un nouveau jeu de données appelé VSI-590K, composé de vidéos réelles annotées manuellement, de données simulées et de données synthétiques générées automatiquement grâce à des outils comme GroundingDINO, SAM2 et VGGT pour extraire des informations géométriques. Le véritable saut qualitatif vient avec une nouvelle mécanique : la perception prédictive. Inspirée du fonctionnement du cerveau humain, cette approche suppose que l’esprit anticipe constamment ce qui va arriver. Si une scène correspond à cette anticipation, elle est considérée comme « prévisible » et peut être compressée ou oubliée. Si elle est inattendue, elle est conservée en détail. Dans Cambrian-S, un prédicteur de cadre latent (deux couches MLP) prévoit la représentation du prochain cadre vidéo. L’écart entre la prédiction et la réalité devient une mesure de « surprise ». Les cadres peu surprenants sont compressés dans une mémoire à long terme ; ceux qui surprennent déclenchent un enregistrement détaillé. Ce mécanisme permet de gérer des flux vidéo illimités avec une consommation mémoire stable. En pratique, ce système a permis à Cambrian-S d’atteindre 67,5 % de précision sur VSI-Bench, surpassant même des modèles commerciaux comme Gemini-2.5-Pro de plus de 16 points. Sur les tâches VSR et VSC, il maintient une performance stable même sur des vidéos de 120 minutes, tandis que les autres modèles s’effondrent. Cependant, les auteurs soulignent que cette recherche n’est qu’un début. Les benchmarks restent limités, les données doivent être diversifiées, et la généralisation reste à améliorer. Leur objectif ultime ? Créer une IA qui ne « voit » pas seulement, mais qui vit dans un monde spatial, en anticipant, en évaluant, en oubliant intelligemment — comme un être conscient. En somme, ce n’est pas la taille du modèle ou la longueur de la mémoire qui manque, mais une intelligence de gestion spatiale et prédictive. Et c’est là que réside la véritable révolution : non pas dans la mémoire brute, mais dans la capacité à prévoir pour mieux percevoir.
