FreeLong++ : Génération de vidéos longues sans entraînement via la fusion spectrale multi-bande

Les récentes avancées dans les modèles de génération vidéo ont permis la création de vidéos courtes de haute qualité à partir de prompts textuels. Cependant, l'extension de ces modèles à des vidéos plus longues reste un défi majeur, principalement en raison d'une cohérence temporelle et d'une fidélité visuelle dégradées. Nos observations préliminaires montrent qu'une application naïve des modèles de génération de vidéos courtes à des séquences plus longues entraîne une dégradation notable de la qualité. Une analyse plus approfondie identifie une tendance systématique où les composantes à haute fréquence deviennent de plus en plus distordues à mesure que la longueur de la vidéo augmente, un problème que nous appelons distorsion à haute fréquence.Pour résoudre ce problème, nous proposons FreeLong, un cadre sans apprentissage conçu pour équilibrer la distribution des fréquences des caractéristiques des vidéos longues pendant le processus de débruitage. FreeLong réalise cela en combinant des caractéristiques globales à basse fréquence, qui capturent les sémantiques holistiques sur toute la durée de la vidéo, avec des caractéristiques locales à haute fréquence extraites de fenêtres temporelles courtes pour préserver les détails fins. Sur cette base, FreeLong++ étend le design bicanaux de FreeLong vers une architecture multicanaux avec plusieurs branches d'attention, chacune opérant à une échelle temporelle distincte.En organisant plusieurs tailles de fenêtres du global au local, FreeLong++ permet une fusion multibande des fréquences de basse à haute fréquence, garantissant ainsi à la fois la continuité sémantique et les dynamiques du mouvement aux niveaux fin et grossier sur des séquences vidéo plus longues. Sans aucun apprentissage supplémentaire, FreeLong++ peut être intégré aux modèles existants de génération vidéo (par exemple Wan2.1 et LTX-Video) pour produire des vidéos plus longues avec une cohérence temporelle et une fidélité visuelle considérablement améliorées. Nous montrons que notre approche surpasse les méthodes précédentes dans les tâches de génération de vidéos plus longues (par exemple 4x et 8x de la longueur native). Elle supporte également la génération vidéo multiprompt cohérente avec des transitions scéniques fluides et permet une génération vidéo contrôlée utilisant des séquences profondes ou d'attitude longues.