Command Palette
Search for a command to run...
LLaVA-Mini : Modèles multimodaux grands efficaces pour l’image et la vidéo avec un seul jeton visuel
LLaVA-Mini : Modèles multimodaux grands efficaces pour l’image et la vidéo avec un seul jeton visuel
Shaolei Zhang Qingkai Fang Zhe Yang Yang Feng
Résumé
L’arrivée des modèles multimodaux à grande échelle en temps réel, tels que GPT-4o, a suscité un vif intérêt pour les modèles multimodaux efficaces. Les cadres d’architecture LMM (Large Multimodal Models) encodent généralement les entrées visuelles en tokens visuels (représentations continues) et intègrent ces derniers ainsi que les instructions textuelles dans le contexte des grands modèles linguistiques (LLM). Ce processus entraîne un surcroît computationnel important, dû à la grande taille des paramètres et au nombre élevé de tokens contextuels (principalement des tokens visuels). Les travaux antérieurs visant à améliorer l’efficacité des LMM se sont principalement concentrés sur le remplacement du noyau LLM par des modèles plus petits, tout en négligeant un enjeu crucial : la quantité de tokens. Dans ce papier, nous introduisons LLaVA-Mini, un modèle multimodal efficace caractérisé par un nombre minimal de tokens visuels. Pour atteindre un taux de compression élevé des tokens visuels tout en préservant l’information visuelle, nous analysons d’abord la manière dont les LMM interprètent les tokens visuels, et constatons que la plupart d’entre eux jouent un rôle essentiel uniquement dans les premières couches du noyau LLM, où ils permettent principalement d’incorporer l’information visuelle dans les tokens textuels. Sur la base de cette observation, LLaVA-Mini introduit une pré-fusion modalité, qui fusionne l’information visuelle dans les tokens textuels en amont, permettant ainsi une compression extrême des tokens visuels envoyés au noyau LLM, réduits à un seul token. LLaVA-Mini est un modèle multimodal unifié capable d’assister efficacement à la compréhension d’images, d’images haute résolution et de vidéos. Des expérimentations menées sur 11 benchmarks basés sur des images et 7 benchmarks basés sur des vidéos montrent que LLaVA-Mini surpassent LLaVA-v1.5, tout en utilisant un seul token visuel au lieu de 576. L’analyse d’efficacité révèle que LLaVA-Mini permet de réduire les FLOPs de 77 %, d’offrir des réponses à faible latence (moins de 40 millisecondes) et de traiter plus de 10 000 trames vidéo sur une carte graphique disposant de 24 Go de mémoire.