HyperAIHyperAI

Command Palette

Search for a command to run...

FIFO-Diffusion : Génération de vidéos infinies à partir de texte sans entraînement

Jihwan Kim Junoh Kang Jinyoung Choi Bohyung Han

Résumé

Nous proposons une nouvelle technique d'inférence fondée sur un modèle de diffusion préentraîné pour la génération vidéo conditionnée par le texte. Notre approche, nommée FIFO-Diffusion, est conceptuellement capable de générer des vidéos de longueur infinie sans nécessiter d'entraînement. Cela est réalisé en effectuant itérativement une débruitage diagonal, qui traite simultanément une série de trames consécutives avec des niveaux de bruit croissants dans une file d'attente : notre méthode défile une trame entièrement débruitée en tête tout en ajoutant une nouvelle trame aléatoire bruitée en queue. Toutefois, le débruitage diagonal constitue un outil à double tranchant, car les trames proches de la queue peuvent tirer parti des trames plus propres grâce à une référence en avant (forward referencing), mais cette stratégie engendre un écart entre l'entraînement et l'inférence. Afin de réduire cet écart, nous introduisons une partition latente, et pour tirer parti des avantages de la référence en avant, nous proposons un débruitage anticipé (lookahead denoising). Nous avons démontré les résultats prometteurs et l'efficacité de ces méthodes proposées sur les modèles de référence existants en génération vidéo conditionnée par le texte.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp