HyperAIHyperAI

Command Palette

Search for a command to run...

il y a 7 jours

TiViBench : Évaluation du raisonnement « think-in-video » pour les modèles génératifs vidéo

TiViBench : Évaluation du raisonnement « think-in-video » pour les modèles génératifs vidéo

Résumé

L’évolution rapide des modèles génératifs vidéo a progressivement déplacé leur objectif, passant d’une production d’images visuellement plausibles à la résolution de tâches exigeant une plausibilité physique et une cohérence logique. Toutefois, malgré les progrès récents, tels que le raisonnement en chaîne de trames mis en œuvre par Veo 3, il reste incertain que ces modèles soient capables d’exprimer des capacités de raisonnement comparables à celles des grands modèles linguistiques (LLM). Les benchmarks existants évaluent principalement la fidélité visuelle et la cohérence temporelle, sans saisir les capacités de raisonnement de haut niveau. Pour combler cet écart, nous proposons TiViBench, un benchmark hiérarchique spécifiquement conçu pour évaluer les capacités de raisonnement des modèles de génération vidéo à partir d’images (I2V). TiViBench évalue systématiquement le raisonnement selon quatre dimensions : i) raisonnement et recherche structurels, ii) raisonnement spatial et visuel des motifs, iii) raisonnement symbolique et logique, et iv) planification d’actions et exécution de tâches, couvrant 24 scénarios de tâches diversifiés répartis sur trois niveaux de difficulté. À travers des évaluations étendues, nous montrons que les modèles commerciaux (par exemple, Sora 2, Veo 3.1) démontrent un potentiel de raisonnement plus fort, tandis que les modèles open-source révèlent un potentiel non exploité, freiné par une échelle d’entraînement limitée et une diversité de données insuffisante. Pour libérer davantage ce potentiel, nous introduisons VideoTPO, une stratégie efficace et simple à l’inférence, inspirée de l’optimisation par préférences. En effectuant une auto-analyse par LLM sur les candidats générés afin d’identifier leurs forces et faiblesses, VideoTPO améliore significativement les performances de raisonnement sans nécessiter d’entraînement supplémentaire, de données ou de modèles de récompense. Ensemble, TiViBench et VideoTPO ouvrent la voie à l’évaluation et au progrès du raisonnement dans les modèles de génération vidéo, posant ainsi les fondations pour les recherches futures dans ce domaine émergent.

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
TiViBench : Évaluation du raisonnement « think-in-video » pour les modèles génératifs vidéo | Articles de recherche | HyperAI