Command Palette
Search for a command to run...
Raisonnement par vidéo : Première évaluation des capacités de raisonnement des modèles vidéo à travers des tâches de résolution de labyrinthes

Résumé
Les modèles vidéo ont atteint un succès remarquable dans la génération de vidéos de haute fidélité, caractérisées par des dynamiques de mouvement cohérentes. Analogiquement au passage des modèles de génération de texte à la raison basée sur le texte dans les modèles linguistiques, l’évolution des modèles vidéo nous amène à nous interroger : les modèles vidéo peuvent-ils raisonner à travers la génération vidéo ? Contrairement au corpus discret de texte, la vidéo ancre le raisonnement dans des dispositions spatiales explicites et une continuité temporelle, ce qui en fait un substrat idéal pour le raisonnement spatial. Dans ce travail, nous explorons le paradigme du raisonnement via la vidéo et introduisons VR-Bench — un benchmark complet conçu pour évaluer de manière systématique les capacités de raisonnement des modèles vidéo. Fondé sur des tâches de résolution de labyrinthes, qui exigent intrinsèquement une planification spatiale et un raisonnement en plusieurs étapes, VR-Bench comprend 7 920 vidéos générées procéduralement réparties sur cinq types de labyrinthes et plusieurs styles visuels variés. Notre analyse empirique montre que la formation supervisée (SFT) permet efficacement d’activer les capacités de raisonnement des modèles vidéo. Ces modèles font preuve d’une perception spatiale plus forte lors du raisonnement, surpassant les meilleurs modèles vision-langage (VLM) et généralisant bien dans des scénarios, tâches et niveaux de complexité divers. Nous constatons également un effet d’échelle à l’évaluation (test-time scaling), où un échantillonnage diversifié durant l’inférence améliore la fiabilité du raisonnement de 10 à 20 %. Ces résultats mettent en lumière le potentiel unique et la scalabilité du raisonnement via la vidéo pour les tâches de raisonnement spatial.
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.