HyperAIHyperAI

Command Palette

Search for a command to run...

VideoPoet : un Modèle de Langage Énorme pour la Génération Vidéo Zéro-Shot

Résumé

Nous présentons VideoPoet, un modèle linguistique capable de synthétiser des vidéos de haute qualité, accompagnées d’un audio correspondant, à partir d’une large variété de signaux de conditionnement. VideoPoet repose sur une architecture de transformateur uniquement décodeur, capable de traiter des entrées multimodales — incluant des images, des vidéos, du texte et de l’audio. Le protocole d’entraînement suit celui des grands modèles linguistiques (LLM), comprenant deux étapes : un préentraînement suivi d’une adaptation spécifique à une tâche. Pendant le préentraînement, VideoPoet intègre un mélange d’objectifs génératifs multimodaux dans un cadre de transformateur autoregressif. Le modèle LLM préentraîné sert de fondation pouvant être adapté à diverses tâches de génération vidéo. Nous présentons des résultats expérimentaux démontrant les capacités de pointe du modèle en génération vidéo zéro-shot, en mettant particulièrement en évidence sa capacité à produire des mouvements de haute fidélité. Page du projet : http://sites.research.google/videopoet/


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
VideoPoet : un Modèle de Langage Énorme pour la Génération Vidéo Zéro-Shot | Articles | HyperAI