HyperAIHyperAI

Command Palette

Search for a command to run...

vor 2 Monaten

MMTok: Multimodale Abdeckungsoptimierung für eine effiziente Inferenz von VLMs

Sixun Dong Juhua Hu Mian Zhang Ming Yin Yanjie Fu Qi Qian

MMTok: Multimodale Abdeckungsoptimierung für eine effiziente Inferenz von VLMs

Abstract

Vision-Language-Modelle (VLMs) zeigen beeindruckende Leistungsfähigkeit bei der Verarbeitung visueller Inhalte anhand sprachlicher Anweisungen, indem sie visuelle Eingaben in Vision-Token umwandeln. Allerdings führt die Redundanz in den Vision-Token zu einer verschlechterten Inferenz-Effizienz bei VLMs. Obwohl zahlreiche Algorithmen vorgeschlagen wurden, um die Anzahl der Vision-Token zu reduzieren, berücksichtigen die meisten lediglich einmodale Informationen (d. h. visuell/textuell) für das Pruning und ignorieren damit die inhärente multimodale Natur von Vision-Sprache-Aufgaben. Zudem existiert kein generisches Kriterium, das auf unterschiedliche Modalitäten übertragbar ist. Um diese Einschränkung zu überwinden, schlagen wir in dieser Arbeit vor, sowohl Vision- als auch Text-Token zu nutzen, um informative Vision-Token anhand des Kriteriums der Abdeckung (coverage) auszuwählen. Zunächst formulieren wir das Problem der Teilmenge-Auswahl als ein Maximum-Coverage-Problem. Anschließend wird eine Teilmenge von Vision-Token optimiert, um gleichzeitig die Text-Token und die ursprüngliche Menge an Vision-Token abzudecken. Schließlich kann ein VLM-Agent eingesetzt werden, um die Qualität der Text-Token weiter zu verbessern und so die Steuerung des Pruning-Prozesses für die Vision-Token zu unterstützen. Die vorgeschlagene Methode MMTok wird umfassend an Benchmark-Datensätzen mit verschiedenen VLMs evaluiert. Die Vergleiche zeigen, dass visuelle und textuelle Informationen sich ergänzen und die Kombination multimodaler Informationen den einmodalen Baselines klar überlegen ist. Darüber hinaus erreicht unsere Methode auf dem POPE-Datensatz unter dem Maximum-Coverage-Kriterium eine 1,87-fache Beschleunigung bei gleichzeitiger Erhaltung von 98,7 % der ursprünglichen Leistung bei LLaVA-NeXT-13B. Zudem bewahrt sie bei nur vier Vision-Token noch 87,7 % der ursprünglichen Leistung bei LLaVA-1.5-7B. Diese Ergebnisse unterstreichen die Wirksamkeit des Abdeckungskriteriums bei der Token-Auswahl.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
MMTok: Multimodale Abdeckungsoptimierung für eine effiziente Inferenz von VLMs | Forschungsarbeiten | HyperAI