VAST : Un modèle et un jeu de données omni-modaux intégrant la vision, l'audio, les sous-titres et le texte

La vision et le texte ont été pleinement explorés dans les modèles fondamentaux vidéo-texte contemporains, tandis que d'autres modalités telles que l'audio et les sous-titres dans les vidéos n'ont pas reçu une attention suffisante. Dans cet article, nous établissons des connexions entre les pistes vidéo multi-modales, incluant la Vision, l'Audio et les Sous-titres, ainsi que le Texte en explorant un vaste ensemble de données de légendes vidéo omni-modales généré automatiquement, appelé VAST-27M. Plus précisément, nous collectons d'abord 27 millions de clips vidéo à domaine ouvert et formons séparément un légendeur visuel et un légendeur audio pour générer des légendes visuelles et audio. Ensuite, nous utilisons un grand modèle linguistique (LLM) prêt à l'emploi pour intégrer les légendes générées, ainsi que les sous-titres et les instructions, dans des légendes omni-modales. Sur la base du jeu de données VAST-27M proposé, nous entraînons un modèle fondamental vidéo-texte omni-modal nommé VAST, capable de percevoir et de traiter les modalités visuelle, audio et sous-titrée provenant des vidéos, afin de mieux soutenir diverses tâches telles que la vision-texte, l'audio-texte et les tâches vidéo-texte multi-modales (recherche, légendage et Q&A). De nombreuses expériences ont été menées pour démontrer l'efficacité de notre corpus VAST-27M proposé et du modèle fondamental VAST. VAST obtient 22 nouveaux résultats d'état de l'art sur divers bancs d'essai inter-modaux. Le code source, le modèle et le jeu de données seront mis à disposition sur https://github.com/TXH-mercury/VAST.