HyperAIHyperAI

Command Palette

Search for a command to run...

Échelle des modèles vidéo autorégressifs

Dirk Weissenborn* Google Research [email protected] Oscar Täckström*† Sana Labs [email protected] Jakob Uszkoreit Google Research [email protected]

Résumé

En raison de la complexité statistique des vidéos, du haut degré d'aléatoire inhérent et de la quantité massive de données, la génération de vidéos naturelles reste une tâche ardue. Les modèles de génération vidéo les plus avancés tentent souvent de résoudre ces problèmes en combinant des architectures de réseaux neuronaux parfois complexes et spécifiques aux vidéos, des modèles à variables latentes, un entraînement adversarial et diverses autres méthodes. Malgré leur complexité souvent élevée, ces approches peinent encore à générer des séquences vidéo de haute qualité en dehors de domaines restreints et ont souvent du mal avec la fidélité. En revanche, nous montrons que des modèles conceptuellement simples de génération vidéo basés sur un mécanisme d'auto-attention tridimensionnel obtiennent des résultats compétitifs selon plusieurs métriques sur des jeux de données基准数据集 (benchmark datasets) populaires, pour lesquels ils produisent des prolongements d'une haute fidélité et réalisme. Nous présentons également des résultats obtenus lors de l'entraînement de nos modèles sur Kinetics, un jeu de données à grande échelle pour la reconnaissance d'actions composé de vidéos YouTube montrant des phénomènes tels que le mouvement caméra, les interactions complexes entre objets et les mouvements humains variés. Bien que la modélisation cohérente de ces phénomènes reste difficile à atteindre, nous espérons que nos résultats, qui incluent occasionnellement des prolongements réalistes, encouragent davantage la recherche sur des jeux de données comparativement complexes et à grande échelle tels que Kinetics.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp