vor 2 Monaten

LLaVA-Mini: Effiziente große multimodale Modelle für Bilder und Videos mit einem Visionstoken

Shaolei Zhang, Qingkai Fang, Zhe Yang, Yang Feng

Abstract

Die Einführung von Echtzeitgroßmodellen mit mehreren Modalitäten (LMMs) wie GPT-4o hat erhebliches Interesse an effizienten LMMs geweckt. LMM-Frameworks kodieren visuelle Eingaben in Visionstokens (kontinuierliche Darstellungen) und integrieren diese zusammen mit textuellen Anweisungen in den Kontext großer Sprachmodelle (LLMs). Dabei führen die großen Parametermengen und die zahlreichen Kontexttokens (hauptsächlich Visionstokens) zu einem erheblichen Rechenaufwand. Bisherige Ansätze zur Erhöhung der Effizienz von LMMs konzentrierten sich stets darauf, das LLM-Kernmodell durch kleinere Modelle zu ersetzen, während sie das entscheidende Problem der Tokenmenge vernachlässigten. In dieser Arbeit stellen wir LLaVA-Mini vor, ein effizientes LMM mit minimalen Visionstokens. Um eine hohe Kompressionsrate der Visionstokens zu erreichen, ohne dabei visuelle Informationen zu verlieren, analysieren wir zunächst, wie LMMs Visionstokens verstehen. Wir finden heraus, dass die meisten Visionstokens nur in den frühen Schichten des LLM-Kernmodells eine entscheidende Rolle spielen, wo sie hauptsächlich visuelle Informationen in Texttokens fusionieren. Auf Basis dieses Befundes führt LLaVA-Mini Modalitätspräfusion ein, um visuelle Informationen im Voraus in Texttokens zu fusionieren und so die extrem starke Kompression der an das LLM-Kernmodell gelieferten Visionstokens auf einen einzelnen Token zu ermöglichen. LLaVA-Mini ist ein vereintes großes multimodales Modell, das die Verarbeitung von Bildern, hochaufgelösten Bildern und Videos auf effiziente Weise unterstützt. Experimente anhand von 11 bildbasierten und 7 videobasierten Benchmarks zeigen, dass LLaVA-Mini bei nur einem Visiontoken gegenüber 576 Tokens von LLaVA-v1.5 überlegen ist. Effizienzanalysen ergaben, dass LLaVA-Mini die FLOPs um 77 % reduzieren kann, Antworten mit einer geringen Latenz von weniger als 40 Millisekunden liefert und auf GPU-Hardware mit 24 GB Speicher mehr als 10.000 Videoframes verarbeiten kann.