HyperAIHyperAI
il y a 2 mois

Video-LLaVA : Apprentissage d'une représentation visuelle unifiée par alignement avant projection

Bin Lin; Yang Ye; Bin Zhu; Jiaxi Cui; Munan Ning; Peng Jin; Li Yuan
Video-LLaVA : Apprentissage d'une représentation visuelle unifiée par alignement avant projection
Résumé

Le grand modèle vision-langue (LVLM) a amélioré les performances de diverses tâches en aval dans la compréhension visuelle et linguistique. La plupart des approches existantes encodent les images et les vidéos dans des espaces de caractéristiques distincts, qui sont ensuite utilisés comme entrées pour les grands modèles de langage. Cependant, en raison du manque d'une tokenisation unifiée pour les images et les vidéos, c'est-à-dire un désalignement avant la projection, il devient difficile pour un grand modèle de langage (LLM) d'apprendre des interactions multimodales à partir de plusieurs couches de projection médiocres. Dans cette étude, nous unifions la représentation visuelle dans l'espace de caractéristiques linguistiques afin d'améliorer le LLM fondamental vers un LVLM unifié. En conséquence, nous établissons une base LVLM simple mais robuste, Video-LLaVA, qui apprend à partir d'un ensemble de données mixtes d'images et de vidéos, se renforçant mutuellement. Video-LLaVA obtient des performances supérieures sur une large gamme de 9 benchmarks d'images couvrant 5 jeux de données de questions-réponses sur des images et 4 outils de benchmark d'images. De plus, notre Video-LLaVA surpasse Video-ChatGPT respectivement de 5,8 %, 9,9 %, 18,6 % et 10,1 % sur MSRVTT, MSVD, TGIF et ActivityNet. Il est notable que des expériences étendues démontrent que Video-LLaVA bénéficie mutuellement aux images et aux vidéos au sein d'une représentation visuelle unifiée, surpassant ainsi les modèles conçus spécifiquement pour les images ou les vidéos. Nous visons à ce que cette étude fournisse des insights modestes mais significatifs sur les entrées multimodales pour le LLM. Adresse du code : \href{https://github.com/PKU-YuanGroup/Video-LLaVA}