HyperAIHyperAI

Command Palette

Search for a command to run...

LLaVA-Mini : Modèles multimodaux grands efficaces pour l’image et la vidéo avec un seul jeton visuel

Shaolei Zhang Qingkai Fang Zhe Yang Yang Feng

Résumé

L’arrivée des modèles multimodaux à grande échelle en temps réel, tels que GPT-4o, a suscité un vif intérêt pour les modèles multimodaux efficaces. Les cadres d’architecture LMM (Large Multimodal Models) encodent généralement les entrées visuelles en tokens visuels (représentations continues) et intègrent ces derniers ainsi que les instructions textuelles dans le contexte des grands modèles linguistiques (LLM). Ce processus entraîne un surcroît computationnel important, dû à la grande taille des paramètres et au nombre élevé de tokens contextuels (principalement des tokens visuels). Les travaux antérieurs visant à améliorer l’efficacité des LMM se sont principalement concentrés sur le remplacement du noyau LLM par des modèles plus petits, tout en négligeant un enjeu crucial : la quantité de tokens. Dans ce papier, nous introduisons LLaVA-Mini, un modèle multimodal efficace caractérisé par un nombre minimal de tokens visuels. Pour atteindre un taux de compression élevé des tokens visuels tout en préservant l’information visuelle, nous analysons d’abord la manière dont les LMM interprètent les tokens visuels, et constatons que la plupart d’entre eux jouent un rôle essentiel uniquement dans les premières couches du noyau LLM, où ils permettent principalement d’incorporer l’information visuelle dans les tokens textuels. Sur la base de cette observation, LLaVA-Mini introduit une pré-fusion modalité, qui fusionne l’information visuelle dans les tokens textuels en amont, permettant ainsi une compression extrême des tokens visuels envoyés au noyau LLM, réduits à un seul token. LLaVA-Mini est un modèle multimodal unifié capable d’assister efficacement à la compréhension d’images, d’images haute résolution et de vidéos. Des expérimentations menées sur 11 benchmarks basés sur des images et 7 benchmarks basés sur des vidéos montrent que LLaVA-Mini surpassent LLaVA-v1.5, tout en utilisant un seul token visuel au lieu de 576. L’analyse d’efficacité révèle que LLaVA-Mini permet de réduire les FLOPs de 77 %, d’offrir des réponses à faible latence (moins de 40 millisecondes) et de traiter plus de 10 000 trames vidéo sur une carte graphique disposant de 24 Go de mémoire.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp