il y a 7 jours

OmniVL : Un modèle fondamental unique pour les tâches image-langage et vidéo-langage

Junke Wang, Dongdong Chen, Zuxuan Wu, Chong Luo, Luowei Zhou, Yucheng Zhao, Yujia Xie, Ce Liu, Yu-Gang Jiang, Lu Yuan

Résumé

Ce papier présente OmniVL, un nouveau modèle fondamental conçu pour soutenir à la fois les tâches image-langage et vidéo-langage grâce à une seule architecture universelle. Il adopte un encodeur visuel basé sur le transformer, unifié pour les entrées images et vidéos, permettant ainsi un pré-entraînement conjoint image-langage et vidéo-langage. Pour la première fois, nous démontrons qu’un tel paradigme bénéficie à la fois aux tâches image et vidéo, contrairement au transfert unidirectionnel classique (par exemple, utiliser des données image-langage pour améliorer les tâches vidéo-langage). À cette fin, nous proposons un pré-entraînement conjoint découplé pour les tâches image-langage et vidéo-langage, permettant de décomposer efficacement la modélisation vision-langage selon les dimensions spatiale et temporelle, et d’obtenir une amélioration des performances sur les deux types de tâches. En outre, nous introduisons une nouvelle fonction de perte contrastive vision-langage unifiée (UniVLC), qui permet d’exploiter conjointement des données image-texte, vidéo-texte, image-étiquette (par exemple, classification d’images) et vidéo-étiquette (par exemple, reconnaissance d’actions vidéo), afin d’utiliser au maximum à la fois les données pré-entraînées supervisées et bruitées. Sans nécessiter de modules d’adaptation spécifiques à chaque tâche, OmniVL peut simultanément prendre en charge des tâches visuelles seules (par exemple, classification d’images, reconnaissance d’actions vidéo), des tâches d’alignement cross-modaux (par exemple, recherche d’images/vidéos à partir de texte) ainsi que des tâches de compréhension et de génération multi-modales (par exemple, question-réponse image/vidéo, génération de légendes). Nous évaluons OmniVL sur une large gamme de tâches downstream et obtenons des résultats au niveau de l’état de l’art ou compétitifs, pour une taille de modèle et une échelle de données similaires.