HyperAIHyperAI

Command Palette

Search for a command to run...

LLaVA-Mini: Effiziente große multimodale Modelle für Bilder und Videos mit einem Visionstoken

Shaolei Zhang Qingkai Fang Zhe Yang Yang Feng

Zusammenfassung

Die Einführung von Echtzeitgroßmodellen mit mehreren Modalitäten (LMMs) wie GPT-4o hat erhebliches Interesse an effizienten LMMs geweckt. LMM-Frameworks kodieren visuelle Eingaben in Visionstokens (kontinuierliche Darstellungen) und integrieren diese zusammen mit textuellen Anweisungen in den Kontext großer Sprachmodelle (LLMs). Dabei führen die großen Parametermengen und die zahlreichen Kontexttokens (hauptsächlich Visionstokens) zu einem erheblichen Rechenaufwand. Bisherige Ansätze zur Erhöhung der Effizienz von LMMs konzentrierten sich stets darauf, das LLM-Kernmodell durch kleinere Modelle zu ersetzen, während sie das entscheidende Problem der Tokenmenge vernachlässigten. In dieser Arbeit stellen wir LLaVA-Mini vor, ein effizientes LMM mit minimalen Visionstokens. Um eine hohe Kompressionsrate der Visionstokens zu erreichen, ohne dabei visuelle Informationen zu verlieren, analysieren wir zunächst, wie LMMs Visionstokens verstehen. Wir finden heraus, dass die meisten Visionstokens nur in den frühen Schichten des LLM-Kernmodells eine entscheidende Rolle spielen, wo sie hauptsächlich visuelle Informationen in Texttokens fusionieren. Auf Basis dieses Befundes führt LLaVA-Mini Modalitätspräfusion ein, um visuelle Informationen im Voraus in Texttokens zu fusionieren und so die extrem starke Kompression der an das LLM-Kernmodell gelieferten Visionstokens auf einen einzelnen Token zu ermöglichen. LLaVA-Mini ist ein vereintes großes multimodales Modell, das die Verarbeitung von Bildern, hochaufgelösten Bildern und Videos auf effiziente Weise unterstützt. Experimente anhand von 11 bildbasierten und 7 videobasierten Benchmarks zeigen, dass LLaVA-Mini bei nur einem Visiontoken gegenüber 576 Tokens von LLaVA-v1.5 überlegen ist. Effizienzanalysen ergaben, dass LLaVA-Mini die FLOPs um 77 % reduzieren kann, Antworten mit einer geringen Latenz von weniger als 40 Millisekunden liefert und auf GPU-Hardware mit 24 GB Speicher mehr als 10.000 Videoframes verarbeiten kann.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
LLaVA-Mini: Effiziente große multimodale Modelle für Bilder und Videos mit einem Visionstoken | Paper | HyperAI