il y a 11 jours

Un petit VLM en temps opportun sauve neuf : un petit VLM constitue une guidance précise pour accélérer les grands VLM

Wangbo Zhao, Yizeng Han, Jiasheng Tang, Zhikai Li, Yibing Song, Kai Wang, Zhangyang Wang, Yang You

Résumé

Les modèles vision-langage (VLM) ont fait preuve d’un succès remarquable sur diverses tâches multimodales, mais les grands VLM font face à des défis importants en termes d’efficacité en raison du traitement d’un grand nombre de tokens visuels. Une approche prometteuse pour accélérer l’inférence des grands VLM consiste à exploiter des informations partielles, telles que les cartes d’attention provenant de couches spécifiques, afin d’évaluer l’importance des tokens et d’éliminer ceux moins essentiels. Toutefois, notre étude révèle trois constatations clés : (i) les informations d’attention partielles s’avèrent insuffisantes pour identifier avec précision les tokens visuels critiques, entraînant des performances sous-optimales, en particulier aux faibles taux de rétention de tokens ; (ii) les informations d’attention globales, telles que les cartes d’attention agrégées sur toutes les couches, permettent de mieux préserver les tokens essentiels et de maintenir des performances comparables même sous une élagage agressif. Toutefois, la collecte des cartes d’attention de toutes les couches nécessite une passe d’inférence complète, ce qui augmente la charge computationnelle et rend cette approche impraticable dans les méthodes existantes ; (iii) la carte d’attention globale extraite à partir d’un petit VLM se révèle très proche de celle d’un grand VLM, suggérant une alternative efficace. À partir de ces observations, nous proposons une méthode \textbf{sans entraînement}, \underline{\textbf{S}}mall VLM \underline{\textbf{G}}uidance pour l’accélération des \underline{\textbf{L}}arge VLMs (\textbf{SGL}). Plus précisément, nous utilisons la carte d’attention agrégée provenant d’un petit VLM pour guider l’élagage des tokens visuels dans un grand VLM. En outre, nous avons conçu un mécanisme de sortie anticipée permettant d’exploiter pleinement les prédictions du petit VLM, en invoquant dynamiquement le grand VLM uniquement lorsque nécessaire, offrant ainsi un meilleur compromis entre précision et coût computationnel. Des évaluations étendues sur 11 benchmarks démontrent l’efficacité et la généralisation de SGL, atteignant un taux d’élagage maximal de 91 % pour les tokens visuels tout en préservant des performances compétitives.