HyperAIHyperAI

Command Palette

Search for a command to run...

vor 3 Monaten

VisionZip: Längere ist besser, aber nicht unbedingt erforderlich bei Vision-Language-Modellen

Senqiao Yang Yukang Chen Zhuotao Tian Chengyao Wang Jingyao Li Bei Yu Jiaya Jia

VisionZip: Längere ist besser, aber nicht unbedingt erforderlich bei Vision-Language-Modellen

Abstract

Neuere Fortschritte in Vision-Sprache-Modellen haben die Leistung durch Verlängerung der Länge visueller Tokens verbessert, wodurch diese deutlich länger als Text-Tokens werden und die rechnerischen Kosten erheblich steigen. Wir beobachten jedoch, dass die von gängigen Vision-Encodern wie CLIP und SigLIP generierten visuellen Tokens erhebliche Redundanz aufweisen. Um dies zu beheben, stellen wir VisionZip vor – eine einfache, aber wirksame Methode, die eine ausgewählte Menge informativer Tokens für die Eingabe in das Sprachmodell verwendet, um die Redundanz visueller Tokens zu verringern und die Effizienz zu steigern, ohne die Modellleistung zu beeinträchtigen. VisionZip lässt sich weitreichend auf Aufgaben der Bild- und Videoverstehens anwenden und eignet sich besonders gut für mehrere Dialogrunden in realen Anwendungsszenarien, in denen bisherige Ansätze tendenziell unterdurchschnittlich abschneiden. Experimentelle Ergebnisse zeigen, dass VisionZip die vorherige State-of-the-Art-Methode in nahezu allen Szenarien um mindestens 5 Prozentpunkte übertrifft. Zudem verbessert unsere Methode signifikant die Geschwindigkeit der Modellinferenz: Die Pre-Filling-Zeit wird um das 8-Fache verkürzt, und der LLaVA-Next 13B-Modell kann schneller inferieren als der LLaVA-Next 7B-Modell, wobei gleichzeitig bessere Ergebnisse erzielt werden. Darüber hinaus analysieren wir die Ursachen dieser Redundanz und appellieren an die Forschungsgemeinschaft, sich stärker auf die Extraktion qualitativ hochwertiger visueller Merkmale zu konzentrieren, anstatt lediglich die Tokenlänge zu erhöhen. Unser Code ist unter https://github.com/dvlab-research/VisionZip verfügbar.

Code-Repositories

dvlab-research/visionzip
Offiziell
pytorch
In GitHub erwähnt

Benchmarks

BenchmarkMethodikMetriken
visual-question-answering-on-mm-vetVisionZip (Retain 128 Tokens, fine-tuning)
GPT-4 score: 32.9
visual-question-answering-on-mm-vetVisionZip (Retain 64 Tokens, fine-tuning)
GPT-4 score: 30.2
visual-question-answering-on-mm-vetVisionZip (Retain 128 Tokens)
GPT-4 score: 32.6
visual-question-answering-on-mm-vetVisionZip (Retain 192 Tokens, fine-tuning)
GPT-4 score: 32.6
visual-question-answering-on-mm-vetVisionZip (Retain 192 Tokens)
GPT-4 score: 31.7
visual-question-answering-on-mm-vetVisionZip (Retain 64 Tokens)
GPT-4 score: 31.7

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
VisionZip: Längere ist besser, aber nicht unbedingt erforderlich bei Vision-Language-Modellen | Forschungsarbeiten | HyperAI