HyperAIHyperAI

Command Palette

Search for a command to run...

il y a 6 jours

Raisonnement par vidéo : Première évaluation des capacités de raisonnement des modèles vidéo à travers des tâches de résolution de labyrinthes

Raisonnement par vidéo : Première évaluation des capacités de raisonnement des modèles vidéo à travers des tâches de résolution de labyrinthes

Résumé

Les modèles vidéo ont atteint un succès remarquable dans la génération de vidéos de haute fidélité, caractérisées par des dynamiques de mouvement cohérentes. Analogiquement au passage des modèles de génération de texte à la raison basée sur le texte dans les modèles linguistiques, l’évolution des modèles vidéo nous amène à nous interroger : les modèles vidéo peuvent-ils raisonner à travers la génération vidéo ? Contrairement au corpus discret de texte, la vidéo ancre le raisonnement dans des dispositions spatiales explicites et une continuité temporelle, ce qui en fait un substrat idéal pour le raisonnement spatial. Dans ce travail, nous explorons le paradigme du raisonnement via la vidéo et introduisons VR-Bench — un benchmark complet conçu pour évaluer de manière systématique les capacités de raisonnement des modèles vidéo. Fondé sur des tâches de résolution de labyrinthes, qui exigent intrinsèquement une planification spatiale et un raisonnement en plusieurs étapes, VR-Bench comprend 7 920 vidéos générées procéduralement réparties sur cinq types de labyrinthes et plusieurs styles visuels variés. Notre analyse empirique montre que la formation supervisée (SFT) permet efficacement d’activer les capacités de raisonnement des modèles vidéo. Ces modèles font preuve d’une perception spatiale plus forte lors du raisonnement, surpassant les meilleurs modèles vision-langage (VLM) et généralisant bien dans des scénarios, tâches et niveaux de complexité divers. Nous constatons également un effet d’échelle à l’évaluation (test-time scaling), où un échantillonnage diversifié durant l’inférence améliore la fiabilité du raisonnement de 10 à 20 %. Ces résultats mettent en lumière le potentiel unique et la scalabilité du raisonnement via la vidéo pour les tâches de raisonnement spatial.

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Raisonnement par vidéo : Première évaluation des capacités de raisonnement des modèles vidéo à travers des tâches de résolution de labyrinthes | Articles de recherche | HyperAI