il y a 3 mois

Cheng Yang Haiyuan Wan Yiran Peng Xin Cheng Zhaoyang Yu Jiayi Zhang Junchi Yu Xinlei Yu Xiawu Zheng Dongzhan Zhou

Résumé

Les modèles vidéo ont atteint un succès remarquable dans la génération de vidéos de haute fidélité, caractérisées par des dynamiques de mouvement cohérentes. Analogiquement au passage des modèles de génération de texte à la raison basée sur le texte dans les modèles linguistiques, l’évolution des modèles vidéo nous amène à nous interroger : les modèles vidéo peuvent-ils raisonner à travers la génération vidéo ? Contrairement au corpus discret de texte, la vidéo ancre le raisonnement dans des dispositions spatiales explicites et une continuité temporelle, ce qui en fait un substrat idéal pour le raisonnement spatial. Dans ce travail, nous explorons le paradigme du raisonnement via la vidéo et introduisons VR-Bench — un benchmark complet conçu pour évaluer de manière systématique les capacités de raisonnement des modèles vidéo. Fondé sur des tâches de résolution de labyrinthes, qui exigent intrinsèquement une planification spatiale et un raisonnement en plusieurs étapes, VR-Bench comprend 7 920 vidéos générées procéduralement réparties sur cinq types de labyrinthes et plusieurs styles visuels variés. Notre analyse empirique montre que la formation supervisée (SFT) permet efficacement d’activer les capacités de raisonnement des modèles vidéo. Ces modèles font preuve d’une perception spatiale plus forte lors du raisonnement, surpassant les meilleurs modèles vision-langage (VLM) et généralisant bien dans des scénarios, tâches et niveaux de complexité divers. Nous constatons également un effet d’échelle à l’évaluation (test-time scaling), où un échantillonnage diversifié durant l’inférence améliore la fiabilité du raisonnement de 10 à 20 %. Ces résultats mettent en lumière le potentiel unique et la scalabilité du raisonnement via la vidéo pour les tâches de raisonnement spatial.

PDF source Voir le code

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 3 mois

Représentation Multimodale

Cheng Yang Haiyuan Wan Yiran Peng Xin Cheng Zhaoyang Yu Jiayi Zhang Junchi Yu Xinlei Yu Xiawu Zheng Dongzhan Zhou

Résumé

PDF source Voir le code

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 3 mois

Représentation Multimodale

Cheng Yang Haiyuan Wan Yiran Peng Xin Cheng Zhaoyang Yu Jiayi Zhang Junchi Yu Xinlei Yu Xiawu Zheng Dongzhan Zhou

Résumé

PDF source Voir le code

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Raisonnement par vidéo : Première évaluation des capacités de raisonnement des modèles vidéo à travers des tâches de résolution de labyrinthes | Articles | HyperAI

Command Palette

Raisonnement par vidéo : Première évaluation des capacités de raisonnement des modèles vidéo à travers des tâches de résolution de labyrinthes

Cheng Yang Haiyuan Wan Yiran Peng Xin Cheng Zhaoyang Yu Jiayi Zhang Junchi Yu Xinlei Yu Xiawu Zheng Dongzhan Zhou1 more

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Raisonnement par vidéo : Première évaluation des capacités de raisonnement des modèles vidéo à travers des tâches de résolution de labyrinthes

Cheng Yang Haiyuan Wan Yiran Peng Xin Cheng Zhaoyang Yu Jiayi Zhang Junchi Yu Xinlei Yu Xiawu Zheng Dongzhan Zhou1 more

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Raisonnement par vidéo : Première évaluation des capacités de raisonnement des modèles vidéo à travers des tâches de résolution de labyrinthes

Cheng Yang Haiyuan Wan Yiran Peng Xin Cheng Zhaoyang Yu Jiayi Zhang Junchi Yu Xinlei Yu Xiawu Zheng Dongzhan Zhou1 more

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Cheng Yang Haiyuan Wan Yiran Peng Xin Cheng Zhaoyang Yu Jiayi Zhang Junchi Yu Xinlei Yu Xiawu Zheng Dongzhan Zhou

Cheng Yang Haiyuan Wan Yiran Peng Xin Cheng Zhaoyang Yu Jiayi Zhang Junchi Yu Xinlei Yu Xiawu Zheng Dongzhan Zhou

Cheng Yang Haiyuan Wan Yiran Peng Xin Cheng Zhaoyang Yu Jiayi Zhang Junchi Yu Xinlei Yu Xiawu Zheng Dongzhan Zhou