il y a un mois

Échelle des modèles vidéo autorégressifs

Dirk Weissenborn; Oscar Täckström; Jakob Uszkoreit

Résumé

En raison de la complexité statistique des vidéos, du haut degré d'aléatoire inhérent et de la quantité massive de données, la génération de vidéos naturelles reste une tâche ardue. Les modèles de génération vidéo les plus avancés tentent souvent de résoudre ces problèmes en combinant des architectures de réseaux neuronaux parfois complexes et spécifiques aux vidéos, des modèles à variables latentes, un entraînement adversarial et diverses autres méthodes. Malgré leur complexité souvent élevée, ces approches peinent encore à générer des séquences vidéo de haute qualité en dehors de domaines restreints et ont souvent du mal avec la fidélité. En revanche, nous montrons que des modèles conceptuellement simples de génération vidéo basés sur un mécanisme d'auto-attention tridimensionnel obtiennent des résultats compétitifs selon plusieurs métriques sur des jeux de données基准数据集 (benchmark datasets) populaires, pour lesquels ils produisent des prolongements d'une haute fidélité et réalisme. Nous présentons également des résultats obtenus lors de l'entraînement de nos modèles sur Kinetics, un jeu de données à grande échelle pour la reconnaissance d'actions composé de vidéos YouTube montrant des phénomènes tels que le mouvement caméra, les interactions complexes entre objets et les mouvements humains variés. Bien que la modélisation cohérente de ces phénomènes reste difficile à atteindre, nous espérons que nos résultats, qui incluent occasionnellement des prolongements réalistes, encouragent davantage la recherche sur des jeux de données comparativement complexes et à grande échelle tels que Kinetics.