LongVie : Génération contrôlable d'images vidéo ultra-longues guidée par multimodalité

La génération contrôlée de vidéos ultra-longues constitue une tâche fondamentale mais particulièrement difficile. Bien que les méthodes actuelles soient efficaces pour les courtes séquences, elles peinent à s’échelonner en raison de problèmes tels que l’incohérence temporelle et la dégradation visuelle. Dans cet article, nous analysons d’abord ces limites et identifions trois facteurs clés : une initialisation séparée du bruit, une normalisation indépendante des signaux de contrôle, ainsi que les limites imposées par une guidance à modalité unique. Pour surmonter ces défis, nous proposons LongVie, un cadre autoregressif end-to-end pour la génération contrôlée de vidéos longues. LongVie introduit deux innovations essentielles afin de garantir la cohérence temporelle : 1) une stratégie unifiée d’initialisation du bruit, qui assure une génération cohérente à travers les différentes séquences, et 2) une normalisation globale des signaux de contrôle, qui impose une alignement dans l’espace de contrôle tout au long de la vidéo. Pour atténuer la dégradation visuelle, LongVie met en œuvre 3) un cadre de contrôle multimodal intégrant à la fois des signaux denses (par exemple, cartes de profondeur) et des signaux épars (par exemple, points clés), complété par 4) une stratégie d’apprentissage consciente de la dégradation, qui ajuste de manière adaptative les contributions des modalités au fil du temps afin de préserver la qualité visuelle. Nous introduisons également LongVGenBench, un benchmark complet composé de 100 vidéos en haute résolution couvrant des environnements réels et synthétiques variés, chacune dépassant une minute de durée. Des expérimentations étendues montrent que LongVie atteint des performances de pointe en matière de contrôle à longue portée, de cohérence et de qualité.