vor 3 Monaten

VisionZip: Längere ist besser, aber nicht unbedingt erforderlich bei Vision-Language-Modellen

Details der Forschungsarbeit anzeigen Code anzeigen

Senqiao Yang Yukang Chen Zhuotao Tian Chengyao Wang Jingyao Li Bei Yu Jiaya Jia

VisionZip: Längere ist besser, aber nicht unbedingt erforderlich bei Vision-Language-Modellen

Abstract

Neuere Fortschritte in Vision-Sprache-Modellen haben die Leistung durch Verlängerung der Länge visueller Tokens verbessert, wodurch diese deutlich länger als Text-Tokens werden und die rechnerischen Kosten erheblich steigen. Wir beobachten jedoch, dass die von gängigen Vision-Encodern wie CLIP und SigLIP generierten visuellen Tokens erhebliche Redundanz aufweisen. Um dies zu beheben, stellen wir VisionZip vor – eine einfache, aber wirksame Methode, die eine ausgewählte Menge informativer Tokens für die Eingabe in das Sprachmodell verwendet, um die Redundanz visueller Tokens zu verringern und die Effizienz zu steigern, ohne die Modellleistung zu beeinträchtigen. VisionZip lässt sich weitreichend auf Aufgaben der Bild- und Videoverstehens anwenden und eignet sich besonders gut für mehrere Dialogrunden in realen Anwendungsszenarien, in denen bisherige Ansätze tendenziell unterdurchschnittlich abschneiden. Experimentelle Ergebnisse zeigen, dass VisionZip die vorherige State-of-the-Art-Methode in nahezu allen Szenarien um mindestens 5 Prozentpunkte übertrifft. Zudem verbessert unsere Methode signifikant die Geschwindigkeit der Modellinferenz: Die Pre-Filling-Zeit wird um das 8-Fache verkürzt, und der LLaVA-Next 13B-Modell kann schneller inferieren als der LLaVA-Next 7B-Modell, wobei gleichzeitig bessere Ergebnisse erzielt werden. Darüber hinaus analysieren wir die Ursachen dieser Redundanz und appellieren an die Forschungsgemeinschaft, sich stärker auf die Extraktion qualitativ hochwertiger visueller Merkmale zu konzentrieren, anstatt lediglich die Tokenlänge zu erhöhen. Unser Code ist unter https://github.com/dvlab-research/VisionZip verfügbar.

Code-Repositories

dvlab-research/visionzip

Offiziell

pytorch

In GitHub erwähnt

Benchmarks

Benchmark	Methodik	Metriken
visual-question-answering-on-mm-vet	VisionZip (Retain 128 Tokens, fine-tuning)	GPT-4 score: 32.9
visual-question-answering-on-mm-vet	VisionZip (Retain 64 Tokens, fine-tuning)	GPT-4 score: 30.2
visual-question-answering-on-mm-vet	VisionZip (Retain 128 Tokens)	GPT-4 score: 32.6
visual-question-answering-on-mm-vet	VisionZip (Retain 192 Tokens, fine-tuning)	GPT-4 score: 32.6
visual-question-answering-on-mm-vet	VisionZip (Retain 192 Tokens)	GPT-4 score: 31.7
visual-question-answering-on-mm-vet	VisionZip (Retain 64 Tokens)	GPT-4 score: 31.7

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding

Sofort einsatzbereit GPUs

Beste Preise

Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette