Command Palette
Search for a command to run...
VisionZip: Längere ist besser, aber nicht unbedingt erforderlich bei Vision-Language-Modellen
VisionZip: Längere ist besser, aber nicht unbedingt erforderlich bei Vision-Language-Modellen
Senqiao Yang Yukang Chen Zhuotao Tian Chengyao Wang Jingyao Li Bei Yu Jiaya Jia
Zusammenfassung
Neuere Fortschritte in Vision-Sprache-Modellen haben die Leistung durch Verlängerung der Länge visueller Tokens verbessert, wodurch diese deutlich länger als Text-Tokens werden und die rechnerischen Kosten erheblich steigen. Wir beobachten jedoch, dass die von gängigen Vision-Encodern wie CLIP und SigLIP generierten visuellen Tokens erhebliche Redundanz aufweisen. Um dies zu beheben, stellen wir VisionZip vor – eine einfache, aber wirksame Methode, die eine ausgewählte Menge informativer Tokens für die Eingabe in das Sprachmodell verwendet, um die Redundanz visueller Tokens zu verringern und die Effizienz zu steigern, ohne die Modellleistung zu beeinträchtigen. VisionZip lässt sich weitreichend auf Aufgaben der Bild- und Videoverstehens anwenden und eignet sich besonders gut für mehrere Dialogrunden in realen Anwendungsszenarien, in denen bisherige Ansätze tendenziell unterdurchschnittlich abschneiden. Experimentelle Ergebnisse zeigen, dass VisionZip die vorherige State-of-the-Art-Methode in nahezu allen Szenarien um mindestens 5 Prozentpunkte übertrifft. Zudem verbessert unsere Methode signifikant die Geschwindigkeit der Modellinferenz: Die Pre-Filling-Zeit wird um das 8-Fache verkürzt, und der LLaVA-Next 13B-Modell kann schneller inferieren als der LLaVA-Next 7B-Modell, wobei gleichzeitig bessere Ergebnisse erzielt werden. Darüber hinaus analysieren wir die Ursachen dieser Redundanz und appellieren an die Forschungsgemeinschaft, sich stärker auf die Extraktion qualitativ hochwertiger visueller Merkmale zu konzentrieren, anstatt lediglich die Tokenlänge zu erhöhen. Unser Code ist unter https://github.com/dvlab-research/VisionZip verfügbar.