Command Palette
Search for a command to run...
Video-as-Answer : Prédire et Générer l'Événement Vidéo Suivant avec Joint-GRPO
Junhao Cheng Liang Hou Xin Tao Jing Liao

Résumé
Bien que les modèles linguistiques aient acquis une importance croissante dans de nombreuses applications du monde réel, la génération vidéo reste largement cantonnée au domaine du divertissement. Inspirés par la capacité intrinsèque de la vidéo à transmettre des informations relatives au monde physique, souvent difficiles à exprimer uniquement par le texte (par exemple, imaginez enseigner à quelqu’un à nouer une cravate uniquement à l’aide de texte), nous identifions une opportunité sous-exploitée : étendre la vidéo comme une nouvelle modalité de réponse pour la Prédiction du Prochain Événement (NEP), formalisée sous la forme de la Prédiction Vidéo du Prochain Événement (VNEP). Alors que la tâche classique de NEP prend en entrée une vidéo accompagnée d’une question procédurale ou prédictive afin de prédire le prochain événement sous forme de texte, la VNEP exige des réponses vidéo dynamiques. Ce passage du « dire » au « montrer » ouvre la voie à des réponses plus intuitives et personnalisées, particulièrement adaptées à l’apprentissage procédural et à l’exploration créative. Toutefois, cette tâche demeure difficile pour les modèles existants, car elle requiert une compréhension multimodale des entrées, un raisonnement conditionné par des instructions, ainsi que la génération de vidéos présentant une cohérence visuelle et sémantique. Pour relever ce défi, nous introduisons VANS, un modèle qui utilise l’apprentissage par renforcement pour aligner un Modèle Vision-Language (VLM) avec un Modèle de Diffusion Vidéo (VDM) afin de réaliser la VNEP. Le cœur de VANS réside dans notre proposition de Joint-GRPO, une méthode qui orchestre le VLM et le VDM pour qu’ils agissent comme une unité cohérente. Piloté par une récompense partagée sur leurs sorties respectives, Joint-GRPO optimise le VLM afin qu’il produise des légendes précises et favorables à la visualisation, tout en guidant le VDM à générer des vidéos fidèles à ces légendes ainsi qu’au contexte visuel d’entrée. Pour permettre cette apprentissage, nous avons conçu VANS-Data-100K, un jeu de données dédié à la tâche de VNEP. Des expériences menées sur des benchmarks procéduraux et prédictifs démontrent que VANS atteint des performances de pointe tant pour la prédiction d’événements vidéo que pour leur visualisation. Le code source est disponible à l’adresse suivante : https://github.com/KlingTeam/VANS.
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.