Ein Stich im Zeitpunkt rettet neun: Kleine VLMs sind eine präzise Anleitung zur Beschleunigung großer VLMs

Vision-Language-Modelle (VLMs) haben bei einer Vielzahl multimodaler Aufgaben bemerkenswerte Erfolge erzielt, stoßen jedoch bei großen Modellen auf erhebliche Effizienzprobleme, da sie eine große Anzahl visueller Tokens verarbeiten müssen. Ein vielversprechender Ansatz zur Beschleunigung der Inferenz großer VLMs besteht darin, partielle Informationen – beispielsweise Aufmerksamkeitskarten aus bestimmten Schichten – zu nutzen, um die Relevanz von Tokens zu bewerten und weniger essenzielle Tokens zu entfernen. Unsere Studie ergibt jedoch drei zentrale Erkenntnisse: (i) Partielle Aufmerksamkeitsinformationen sind unzureichend, um kritische visuelle Tokens genau zu identifizieren, was zu suboptimaler Leistung führt, insbesondere bei niedrigen Retentionsraten für Tokens; (ii) Globale Aufmerksamkeitsinformationen – beispielsweise die Aufmerksamkeitskarte, die über alle Schichten aggregiert ist – bewahren essentielle Tokens effektiver und gewährleisten unter aggressivem Pruning vergleichbare Leistung. Allerdings erfordern die Aufmerksamkeitskarten aus allen Schichten einen vollständigen Inferenzdurchlauf, was die Rechenlast erhöht und in bestehenden Methoden daher praktisch unbrauchbar ist; und (iii) Die globale Aufmerksamkeitskarte, die aus einem kleinen VLM aggregiert wird, ähnelt stark derjenigen eines großen VLMs, was einen effizienten Alternativansatz nahelegt. Basierend auf diesen Erkenntnissen stellen wir eine trainingsfreie Methode vor, namens Small VLM Guidance für die Beschleunigung von Large VLMs (SGL). Konkret nutzen wir die aus einem kleinen VLM aggregierte Aufmerksamkeitskarte, um die Pruning-Entscheidung für visuelle Tokens in einem großen VLM zu leiten. Zusätzlich wird ein Früh-Ausgangs-Mechanismus entwickelt, der die Vorhersagen des kleinen VLMs vollständig nutzt und den größeren VLM nur dynamisch aufruft, wenn dies erforderlich ist, wodurch ein überlegenes Verhältnis zwischen Genauigkeit und Rechenaufwand erreicht wird. Umfassende Evaluierungen an 11 Benchmarks belegen die Wirksamkeit und Allgemeingültigkeit von SGL, wobei bis zu 91 % der visuellen Tokens entfernt werden können, ohne die Leistung signifikant zu beeinträchtigen.