HyperAIHyperAI
il y a 16 jours

Swap Attention dans les diffusions spatio-temporelles pour la génération vidéo à partir de texte

Wenjing Wang, Huan Yang, Zixi Tuo, Huiguo He, Junchen Zhu, Jianlong Fu, Jiaying Liu
Swap Attention dans les diffusions spatio-temporelles pour la génération vidéo à partir de texte
Résumé

Face à la popularité exponentielle du contenu généré par l’intelligence artificielle (AIGC), la génération vidéo a récemment suscité un intérêt croissant. La génération de vidéos à partir d’instructions textuelles soulève des défis majeurs, notamment la modélisation de la relation complexe entre l’espace et le temps, ainsi que le manque de données à grande échelle associant texte et vidéo. Les jeux de données existants pour la tâche texte-vidéo présentent des limites en termes de qualité du contenu, d’échelle, ou bien ne sont pas open-source, ce qui les rend inaccessibles pour la recherche et l’utilisation pratique. En matière de conception de modèles, les approches antérieures étendent les modèles pré-entraînés pour la génération d’images à partir de texte en ajoutant des modules de convolution ou d’attention temporels à une dimension (1D), mais elles négligent l’importance d’une modélisation conjointe de l’espace et du temps, entraînant inévitablement des distorsions temporelles et un désalignement entre les descriptions textuelles et les vidéos générées.Dans cet article, nous proposons une nouvelle approche visant à renforcer l’interaction entre les perceptions spatiale et temporelle. Plus précisément, nous introduisons un mécanisme d’attention croisée échangée dans des fenêtres 3D, où le rôle de « requête » est alternativement attribué aux blocs spatiaux et temporels, permettant ainsi une réinforcement mutuel entre les deux. En outre, afin de libérer pleinement le potentiel des modèles pour la génération de vidéos de haute qualité et de stimuler le progrès du domaine, nous avons constitué un grand jeu de données vidéo open-source, nommé HD-VG-130M. Ce jeu de données comprend 130 millions de paires texte-vidéo issues du domaine ouvert, garantissant une qualité haute définition, un format paysage et l’absence de filigranes. Un sous-ensemble de taille plus réduite, mais nettoyé avec une attention accrue, améliore encore davantage la qualité des données, permettant aux modèles d’atteindre des performances supérieures. Les résultats expérimentaux, tant quantitatifs que qualitatifs, démontrent clairement l’avantage de notre approche en termes de qualité par image, de corrélation temporelle et d’alignement texte-vidéo, avec des écarts significatifs.

Swap Attention dans les diffusions spatio-temporelles pour la génération vidéo à partir de texte | Articles de recherche récents | HyperAI