HyperAIHyperAI

Command Palette

Search for a command to run...

Un petit VLM en temps opportun sauve neuf : un petit VLM constitue une guidance précise pour accélérer les grands VLM

Wangbo Zhao Yizeng Han Jiasheng Tang Zhikai Li Yibing Song Kai Wang Zhangyang Wang Yang You

Résumé

Les modèles vision-langage (VLM) ont fait preuve d’un succès remarquable sur diverses tâches multimodales, mais les grands VLM font face à des défis importants en termes d’efficacité en raison du traitement d’un grand nombre de tokens visuels. Une approche prometteuse pour accélérer l’inférence des grands VLM consiste à exploiter des informations partielles, telles que les cartes d’attention provenant de couches spécifiques, afin d’évaluer l’importance des tokens et d’éliminer ceux moins essentiels. Toutefois, notre étude révèle trois constatations clés : (i) les informations d’attention partielles s’avèrent insuffisantes pour identifier avec précision les tokens visuels critiques, entraînant des performances sous-optimales, en particulier aux faibles taux de rétention de tokens ; (ii) les informations d’attention globales, telles que les cartes d’attention agrégées sur toutes les couches, permettent de mieux préserver les tokens essentiels et de maintenir des performances comparables même sous une élagage agressif. Toutefois, la collecte des cartes d’attention de toutes les couches nécessite une passe d’inférence complète, ce qui augmente la charge computationnelle et rend cette approche impraticable dans les méthodes existantes ; (iii) la carte d’attention globale extraite à partir d’un petit VLM se révèle très proche de celle d’un grand VLM, suggérant une alternative efficace. À partir de ces observations, nous proposons une méthode \textbf{sans entraînement}, \underline{\textbf{S}}mall VLM \underline{\textbf{G}}uidance pour l’accélération des \underline{\textbf{L}}arge VLMs (\textbf{SGL}). Plus précisément, nous utilisons la carte d’attention agrégée provenant d’un petit VLM pour guider l’élagage des tokens visuels dans un grand VLM. En outre, nous avons conçu un mécanisme de sortie anticipée permettant d’exploiter pleinement les prédictions du petit VLM, en invoquant dynamiquement le grand VLM uniquement lorsque nécessaire, offrant ainsi un meilleur compromis entre précision et coût computationnel. Des évaluations étendues sur 11 benchmarks démontrent l’efficacité et la généralisation de SGL, atteignant un taux d’élagage maximal de 91 % pour les tokens visuels tout en préservant des performances compétitives.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp