HyperAIHyperAI
il y a 2 mois

Video-LaVIT : Formation unifiée vidéo-langage avec une tokenisation visuelle-émotionnelle décorrélée

Yang Jin; Zhicheng Sun; Kun Xu; Kun Xu; Liwei Chen; Hao Jiang; Quzhe Huang; Chengru Song; Yuliang Liu; Di Zhang; Yang Song; Kun Gai; Yadong Mu
Video-LaVIT : Formation unifiée vidéo-langage avec une tokenisation visuelle-émotionnelle décorrélée
Résumé

À la lumière des récentes avancées dans les grands modèles de langage multimodaux (LLMs), il y a une attention croissante portée à leur échellement à partir de données image-texte vers des vidéos du monde réel plus informatives. Par rapport aux images statiques, les vidéos posent des défis uniques pour une pré-formation efficace à grande échelle en raison de la modélisation de leurs dynamiques spatio-temporelles. Dans cet article, nous abordons ces limitations dans la pré-formation vidéo-langage grâce à une décomposition vidéo efficace qui représente chaque vidéo par des images clés et des mouvements temporels. Ces éléments sont ensuite adaptés à un LLM en utilisant des tokenizers bien conçus qui discrétisent l'information visuelle et temporelle en quelques tokens, permettant ainsi une pré-formation générative unifiée des vidéos, images et texte. À l'inférence, les tokens générés par le LLM sont soigneusement reconstruits dans l'espace pixel continu original pour créer divers contenus vidéo. Notre cadre proposé est capable de comprendre et de générer des contenus image et vidéo, comme le montre sa performance compétitive sur 13 benchmarks multimodaux d'interprétation et de génération d'images et de vidéos. Notre code et nos modèles sont disponibles à l'adresse suivante : https://video-lavit.github.io.

Video-LaVIT : Formation unifiée vidéo-langage avec une tokenisation visuelle-émotionnelle décorrélée | Articles de recherche récents | HyperAI