Command Palette
Search for a command to run...
FIFO-Diffusion : Génération de vidéos infinies à partir de texte sans entraînement
Jihwan Kim Junoh Kang Jinyoung Choi Bohyung Han

Résumé
Nous proposons une nouvelle technique d'inférence fondée sur un modèle de diffusion préentraîné pour la génération vidéo conditionnée par le texte. Notre approche, nommée FIFO-Diffusion, est conceptuellement capable de générer des vidéos de longueur infinie sans nécessiter d'entraînement. Cela est réalisé en effectuant itérativement une débruitage diagonal, qui traite simultanément une série de trames consécutives avec des niveaux de bruit croissants dans une file d'attente : notre méthode défile une trame entièrement débruitée en tête tout en ajoutant une nouvelle trame aléatoire bruitée en queue. Toutefois, le débruitage diagonal constitue un outil à double tranchant, car les trames proches de la queue peuvent tirer parti des trames plus propres grâce à une référence en avant (forward referencing), mais cette stratégie engendre un écart entre l'entraînement et l'inférence. Afin de réduire cet écart, nous introduisons une partition latente, et pour tirer parti des avantages de la référence en avant, nous proposons un débruitage anticipé (lookahead denoising). Nous avons démontré les résultats prometteurs et l'efficacité de ces méthodes proposées sur les modèles de référence existants en génération vidéo conditionnée par le texte.
Dépôts de code
Benchmarks
| Benchmark | Méthodologie | Métriques |
|---|---|---|
| video-generation-on-ucf-101 | FIFO-Diffusion | FVD128: 596.64 Inception Score: 74.44 |
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.