Command Palette
Search for a command to run...
CogVideo : Pré-entraînement à grande échelle pour la génération vidéo à partir de texte via des Transformers
CogVideo : Pré-entraînement à grande échelle pour la génération vidéo à partir de texte via des Transformers
Wenyi Hong Ming Ding Wendi Zheng Xinghan Liu Jie Tang
Résumé
Les transformateurs préentraînés à grande échelle ont marqué des jalons dans la génération de texte (GPT-3) et la génération texte-图像 (DALL-E et CogView). Leur application à la génération vidéo reste toutefois confrontée à de nombreux défis : le coût computationnel potentiellement énorme rend l'entraînement depuis le début prohibitif ; la rareté et le faible degré de pertinence des jeux de données texte-vidéo entravent la compréhension par le modèle des sémantiques complexes du mouvement. Dans ce travail, nous présentons CogVideo, un transformateur de 9 milliards de paramètres, entraîné en s'appuyant sur un modèle préentraîné de génération texte-vidéo, CogView2. Nous proposons également une stratégie d'entraînement hiérarchique à plusieurs cadences d'images (multi-frame-rate) afin d'améliorer l'alignement entre les textes et les extraits vidéo. En tant que (probablement) premier modèle préentraîné à grande échelle, open-source, de génération texte-vidéo, CogVideo surpasse largement tous les modèles disponibles publiquement, selon les évaluations effectuées par machine comme par des humains.