HyperAIHyperAI
il y a 8 jours

VALOR : Modèle et jeu de données de pré-entraînement omni-perception Vision-Audio-Language

Jing Liu, Sihan Chen, Xingjian He, Longteng Guo, Xinxin Zhu, Weining Wang, Jinhui Tang
VALOR : Modèle et jeu de données de pré-entraînement omni-perception Vision-Audio-Language
Résumé

Dans cet article, nous proposons un modèle pré-entraîné de perception omnimodale vision-audio-langage, nommé VALOR (Vision-Audio-Language Omni-peRception pretraining model), destiné à la compréhension et à la génération multimodales. Contrairement aux modèles de pré-entraînement vision-langage largement étudiés, VALOR modélise de manière conjointe et end-to-end les relations entre la vision, l’audio et le langage. Le modèle comporte trois encodeurs distincts pour extraire des représentations unimodales, ainsi qu’un décodeur dédié à la génération conditionnelle de texte multimodal. Nous avons conçu deux tâches prétextes pour pré-entraîner VALOR : l’alignement de groupes multimodaux (MGA, Multimodal Grouping Alignment) et la génération de légendes multimodales (MGC, Multimodal Grouping Captioning). MGA projette les modalités vision, langage et audio dans un même espace commun, établissant simultanément des alignements vision-langage, audio-langage et audiovision-langage. MGC apprend à générer des tokens de texte conditionnellement à la vision, à l’audio ou aux deux modalités combinées. Afin de favoriser la recherche en pré-entraînement vision-audio-langage, nous avons construit un grand jeu de données tri-modaux de haute qualité, nommé VALOR-1M, comprenant 1 million de vidéos audiovisuelles annotées manuellement par des légendes audiovisuelles. Des expériences étendues montrent que VALOR parvient à apprendre des corrélations multimodales puissantes et à se généraliser efficacement à diverses tâches en aval (par exemple, recherche, génération de légendes, réponse à des questions), quelles que soient les modalités d’entrée (vision-langage, audio-langage ou audiovision-langage). VALOR atteint de nouveaux états de l’art sur plusieurs benchmarks publics intermodaux. Le code source et les données sont disponibles à l’adresse du projet : https://casia-iva-group.github.io/projects/VALOR.