DeepMind提出“帧链”理论:Veo 3展现视频生成模型的通用智能潜力
DeepMind a récemment publié une étude fondamentale sur son modèle de génération vidéo Veo 3, révélant des capacités émergentes de raisonnement et d’apprentissage zéro-échantillon (zero-shot) qui suggèrent que ces modèles vidéo pourraient devenir des modèles fondamentaux universels pour la vision par ordinateur, tout comme les grands modèles linguistiques (LLM) l’ont été pour le traitement du langage naturel. Cette recherche, intitulée « Video models are zero-shot learners and reasoners », propose une nouvelle notion clé : la « chaîne de trames » (Chain-of-Frames, CoF), comme l’équivalent visuel de la « chaîne de pensée » (Chain-of-Thought, CoT) utilisée dans les LLM. Contrairement aux modèles spécialisés traditionnels — comme YOLO pour la détection d’objets ou Segment Anything pour la segmentation — qui sont entraînés pour une tâche précise, Veo 3 démontre, sans aucune fine-tuning, sa capacité à résoudre une large gamme de problèmes visuels complexes, allant de la perception de base à des raisonnements spatiaux et temporels. L’analyse de plus de 18 000 vidéos générées permet de montrer que ce modèle ne se contente pas de produire du contenu visuel fluide, mais qu’il procède à une forme de raisonnement progressif, incarnée par la « chaîne de trames ». Cette notion repose sur une observation fondamentale : la génération vidéo est intrinsèquement séquentielle, avec des changements appliqués trame après trame dans le temps et l’espace. Cette structure temporelle naturelle permet au modèle de décomposer un problème complexe en étapes visuelles progressives, tout comme un LLM décompose un raisonnement logique en étapes textuelles. Alors que les LLM manipulent des symboles abstraits, Veo 3 agit directement sur les dimensions physiques du temps et de l’espace, ce qui lui confère un potentiel unique pour résoudre des tâches nécessitant une planification dynamique et une compréhension du monde en évolution. Pour évaluer ces capacités, l’équipe a mis au point un cadre en quatre niveaux : perception, modélisation, manipulation et raisonnement. Au niveau de la perception, Veo 3 parvient à réaliser des tâches classiques de vision par ordinateur — segmentation d’images, détection de contours, localisation de points clés, super-résolution, débrouillage d’images floues ou suppression de bruit — sans avoir été explicitement entraîné pour celles-ci. Ces performances « émergentes » suggèrent que les modèles vidéo pourraient un jour remplacer de nombreux outils spécialisés actuels. Au niveau supérieur, Veo 3 montre une compréhension intuitive des lois physiques : il modélise le comportement des objets rigides et souples, comprend les interactions de surface, la flottabilité, la résistance de l’air, ainsi que les phénomènes optiques comme la réfraction et la réflexion. Dans une tâche de type « Jenga visuel », il retire des blocs de manière physiquement cohérente. Il reconnaît aussi les fonctions des objets (par exemple, ce qui peut être mis dans un sac) et maintient une mémoire spatiale et temporelle de l’état du monde au fil du temps. La capacité de manipulation est tout aussi impressionnante : Veo 3 peut supprimer des arrière-plans, appliquer des styles artistiques, coloriser des images, les restaurer ou les modifier selon des instructions manuscrites. Il peut même combiner des objets disparates en scènes cohérentes, ou transformer une photo de profil en une image professionnelle. Ces capacités s’expriment notamment dans des tâches complexes comme la démonstration d’un mouvement précis — par exemple, rouler un taco ou faire saisir un marteau à un bras robotique de manière naturelle. C’est dans le domaine du raisonnement que la « chaîne de trames » joue un rôle central. Dans un test de labyrinthe, Veo 3 résout des labyrinthes de différentes tailles en déplaçant progressivement un carré rouge le long d’un chemin blanc jusqu’à atteindre une case verte. Sur des labyrinthes 5×5, son taux de réussite (pass@10) atteint 78 %, contre seulement 14 % pour Veo 2. Comparé à des modèles d’image statique comme Nano Banana ou à des LLM comme Gemini 2.5 Pro, Veo 3 se distingue par sa capacité à traiter des tâches dynamiques à partir d’images, ce que les modèles statiques ou linguistiques peinent à faire. Bien que Veo 3 ne dépasse pas encore les modèles spécialisés dans toutes les tâches, ses performances rappellent celles des premiers LLM comme GPT-3, qui étaient inférieures à celles des modèles fine-tunés à l’époque, mais ont rapidement évolué grâce à des améliorations en coût et en efficacité. L’analyse historique montre que le coût de calcul des LLM a baissé de 9 à 900 fois par an. Il est raisonnable de penser que la même trajectoire s’appliquera aux modèles vidéo : malgré un coût élevé actuel, leur polyvalence et leur potentiel généraliste pourraient les rendre dominants à long terme. Cette étude marque une étape décisive vers une vision unifiée de la machine vision, où un seul modèle, piloté par une simple instruction, pourrait résoudre une infinité de tâches visuelles — non pas en imitant des modèles spécialisés, mais en pensant visuellement, pas à pas, par trames.