il y a 6 mois

Résumé

Des progrès significatifs ont été réalisés dans le domaine des grands modèles pré-entraînés de diffusion texte-vidéo (VDM). Toutefois, les méthodes antérieures reposent soit exclusivement sur des VDM basés sur les pixels, qui entraînent des coûts computationnels élevés, soit sur des VDM basés sur l’espace latent, qui peinent souvent à assurer une correspondance précise entre texte et vidéo. Dans ce travail, nous proposons pour la première fois un modèle hybride, nommé Show-1, qui combine les VDM basés sur les pixels et ceux basés sur l’espace latent pour la génération de vidéos à partir de texte. Notre modèle commence par utiliser des VDM basés sur les pixels afin de produire une vidéo de faible résolution présentant une forte corrélation entre texte et vidéo. Ensuite, nous introduisons une nouvelle méthode d’expertise de transformation qui exploite les VDM basés sur l’espace latent pour amplifier la résolution de cette vidéo de basse résolution, tout en éliminant potentiellement les artefacts et les dégradations présents dans les vidéos de faible résolution. Contrairement aux VDM basés sur l’espace latent, Show-1 permet de générer des vidéos de haute qualité avec une correspondance textuelle et vidéo précise ; par rapport aux VDM basés sur les pixels, Show-1 est nettement plus efficace (utilisation de la mémoire GPU pendant l’inférence : 15 Go contre 72 Go). En outre, notre modèle Show-1 peut facilement être adapté à des applications telles que la personnalisation du mouvement ou la stylisation vidéo grâce à un fine-tuning simple de couches d’attention temporelle. Notre modèle atteint des performances de pointe sur les benchmarks standards de génération vidéo. Le code source et les poids du modèle sont disponibles publiquement à l’adresse suivante : https://github.com/showlab/Show-1.

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

il y a 6 mois

Zhang David Junhao Wu Jay Zhangjie Liu Jia-Wei Zhao Rui Ran Lingmin

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

il y a 6 mois

Zhang David Junhao Wu Jay Zhangjie Liu Jia-Wei Zhao Rui Ran Lingmin

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Show-1 : Mariage entre les modèles de diffusion sur pixels et sur latents pour la génération vidéo à partir de texte | Articles | HyperAI

Command Palette

Show-1 : Mariage entre les modèles de diffusion sur pixels et sur latents pour la génération vidéo à partir de texte

Zhang David Junhao Wu Jay Zhangjie Liu Jia-Wei Zhao Rui Ran Lingmin6 more

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Show-1 : Mariage entre les modèles de diffusion sur pixels et sur latents pour la génération vidéo à partir de texte

Zhang David Junhao Wu Jay Zhangjie Liu Jia-Wei Zhao Rui Ran Lingmin6 more

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Show-1 : Mariage entre les modèles de diffusion sur pixels et sur latents pour la génération vidéo à partir de texte

Zhang David Junhao Wu Jay Zhangjie Liu Jia-Wei Zhao Rui Ran Lingmin6 more

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Zhang David Junhao Wu Jay Zhangjie Liu Jia-Wei Zhao Rui Ran Lingmin

Zhang David Junhao Wu Jay Zhangjie Liu Jia-Wei Zhao Rui Ran Lingmin

Zhang David Junhao Wu Jay Zhangjie Liu Jia-Wei Zhao Rui Ran Lingmin