HyperAIHyperAI

Command Palette

Search for a command to run...

CogVideo : Pré-entraînement à grande échelle pour la génération vidéo à partir de texte via des Transformers

Wenyi Hong Ming Ding Wendi Zheng Xinghan Liu Jie Tang

Résumé

Les transformateurs préentraînés à grande échelle ont marqué des jalons dans la génération de texte (GPT-3) et la génération texte-图像 (DALL-E et CogView). Leur application à la génération vidéo reste toutefois confrontée à de nombreux défis : le coût computationnel potentiellement énorme rend l'entraînement depuis le début prohibitif ; la rareté et le faible degré de pertinence des jeux de données texte-vidéo entravent la compréhension par le modèle des sémantiques complexes du mouvement. Dans ce travail, nous présentons CogVideo, un transformateur de 9 milliards de paramètres, entraîné en s'appuyant sur un modèle préentraîné de génération texte-vidéo, CogView2. Nous proposons également une stratégie d'entraînement hiérarchique à plusieurs cadences d'images (multi-frame-rate) afin d'améliorer l'alignement entre les textes et les extraits vidéo. En tant que (probablement) premier modèle préentraîné à grande échelle, open-source, de génération texte-vidéo, CogVideo surpasse largement tous les modèles disponibles publiquement, selon les évaluations effectuées par machine comme par des humains.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp