HyperAIHyperAI

Command Palette

Search for a command to run...

il y a 3 jours

Video-as-Answer : Prédire et Générer l'Événement Vidéo Suivant avec Joint-GRPO

Junhao Cheng Liang Hou Xin Tao Jing Liao

Video-as-Answer : Prédire et Générer l'Événement Vidéo Suivant avec Joint-GRPO

Résumé

Bien que les modèles linguistiques aient acquis une importance croissante dans de nombreuses applications du monde réel, la génération vidéo reste largement cantonnée au domaine du divertissement. Inspirés par la capacité intrinsèque de la vidéo à transmettre des informations relatives au monde physique, souvent difficiles à exprimer uniquement par le texte (par exemple, imaginez enseigner à quelqu’un à nouer une cravate uniquement à l’aide de texte), nous identifions une opportunité sous-exploitée : étendre la vidéo comme une nouvelle modalité de réponse pour la Prédiction du Prochain Événement (NEP), formalisée sous la forme de la Prédiction Vidéo du Prochain Événement (VNEP). Alors que la tâche classique de NEP prend en entrée une vidéo accompagnée d’une question procédurale ou prédictive afin de prédire le prochain événement sous forme de texte, la VNEP exige des réponses vidéo dynamiques. Ce passage du « dire » au « montrer » ouvre la voie à des réponses plus intuitives et personnalisées, particulièrement adaptées à l’apprentissage procédural et à l’exploration créative. Toutefois, cette tâche demeure difficile pour les modèles existants, car elle requiert une compréhension multimodale des entrées, un raisonnement conditionné par des instructions, ainsi que la génération de vidéos présentant une cohérence visuelle et sémantique. Pour relever ce défi, nous introduisons VANS, un modèle qui utilise l’apprentissage par renforcement pour aligner un Modèle Vision-Language (VLM) avec un Modèle de Diffusion Vidéo (VDM) afin de réaliser la VNEP. Le cœur de VANS réside dans notre proposition de Joint-GRPO, une méthode qui orchestre le VLM et le VDM pour qu’ils agissent comme une unité cohérente. Piloté par une récompense partagée sur leurs sorties respectives, Joint-GRPO optimise le VLM afin qu’il produise des légendes précises et favorables à la visualisation, tout en guidant le VDM à générer des vidéos fidèles à ces légendes ainsi qu’au contexte visuel d’entrée. Pour permettre cette apprentissage, nous avons conçu VANS-Data-100K, un jeu de données dédié à la tâche de VNEP. Des expériences menées sur des benchmarks procéduraux et prédictifs démontrent que VANS atteint des performances de pointe tant pour la prédiction d’événements vidéo que pour leur visualisation. Le code source est disponible à l’adresse suivante : https://github.com/KlingTeam/VANS.

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Video-as-Answer : Prédire et Générer l'Événement Vidéo Suivant avec Joint-GRPO | Articles de recherche | HyperAI