LLaVA-Mini : Modèles multimodaux efficaces pour images et vidéos avec un jeton visuel unique

L'arrivée de modèles multimodaux à grande échelle en temps réel (LMMs) tels que le GPT-4o a suscité un vif intérêt pour des LMMs plus efficaces. Les cadres LMM encodent généralement les entrées visuelles en tokens de vision (représentations continues) et les intègrent, ainsi que les instructions textuelles, dans le contexte des grands modèles linguistiques (LLMs). Cependant, la présence d'un grand nombre de paramètres à grande échelle et de nombreux tokens contextuels (principalement des tokens de vision) entraîne une charge de calcul importante. Les tentatives précédentes pour améliorer l'efficacité des LMMs se sont toujours concentrées sur le remplacement du squelette LLM par des modèles plus petits, négligeant ainsi l'enjeu crucial lié à la quantité de tokens. Dans cet article, nous présentons LLaVA-Mini, un modèle multimodal efficace utilisant un nombre minimal de tokens de vision. Pour atteindre un taux de compression élevé des tokens de vision tout en préservant les informations visuelles, nous analysons d'abord comment les LMMs comprennent ces tokens et découvrons que la plupart d'entre eux ne jouent qu'un rôle crucial dans les premières couches du squelette LLM, où ils fusionnent principalement les informations visuelles avec les tokens textuels. Sur cette base, LLaVA-Mini introduit une pré-fusion modale pour intégrer à l'avance les informations visuelles aux tokens textuels, facilitant ainsi la compression extrême des tokens de vision fournis au squelette LLM en un seul token. LLaVA-Mini est un modèle multimodal à grande échelle unifié qui peut soutenir l'interprétation d'images, d'images haute résolution et de vidéos de manière efficace. Des expériences menées sur 11 benchmarks basés sur des images et 7 benchmarks basés sur des vidéos montrent que LLaVA-Mini surpasses LLaVA-v1.5 avec seulement 1 token de vision au lieu de 576. Les analyses d'efficacité révèlent que LLaVA-Mini peut réduire les FLOPs (opérations flottantes par seconde) de 77 %, fournir des réponses à faible latence en moins de 40 millisecondes et traiter plus de 10 000 images vidéo sur du matériel GPU doté d'une mémoire de 24 Go.