LLaVA-UHD: Ein LMM, das jedes Seitenverhältnis und hochauflösende Bilder wahrnimmt

Die visuelle Kodierung bildet die Grundlage großer multimodaler Modelle (LMMs) für das Verständnis der visuellen Welt. Herkömmliche LMMs verarbeiten Bilder in festen Abmessungen und begrenzter Auflösung, während neuere Ansätze in dieser Richtung in Bezug auf Anpassungsfähigkeit, Effizienz und sogar Korrektheit eingeschränkt sind. In dieser Arbeit untersuchen wir zunächst GPT-4V und LLaVA-1.5 als repräsentative Beispiele und decken systematische Mängel auf, die in ihrer visuellen Kodierungsstrategie begründet sind. Um diese Herausforderungen zu bewältigen, präsentieren wir LLaVA-UHD, ein großes multimodales Modell, das Bilder in beliebigen Seitenverhältnissen und hoher Auflösung effizient verarbeiten kann. LLaVA-UHD besteht aus drei Schlüsselkomponenten: (1) einer Bildmodularisierungsstrategie, die Bilder in native Auflösung in kleinere, variabel dimensionierte Fragmente aufteilt, um eine effiziente und skalierbare Kodierung zu ermöglichen; (2) einem Kompressionsmodul, das die Bild-Token aus den visuellen Encoder weiter verdichtet; und (3) einem räumlichen Schema zur Organisation der Fragment-Token für große Sprachmodelle (LLMs). Umfassende Experimente zeigen, dass LLaVA-UHD etablierte LMMs, die mit 2 bis 3 Größenordnungen mehr Daten trainiert wurden, in 9 Benchmarks übertrifft. Insbesondere erreicht unser auf LLaVA-1.5 336x336 basierendes Modell Bilder mit einer sechsmal größeren Auflösung (d.h. 672x1088) mit lediglich 94 % der Inference-Rechenleistung und erzielt eine Verbesserung der Genauigkeit um 6,4 Prozentpunkte auf TextVQA. Zudem kann das Modell effizient in akademischen Umgebungen trainiert werden – innerhalb von 23 Stunden auf 8 A100-GPUs (gegenüber 26 Stunden für LLaVA-1.5). Die Daten und den Quellcode stellen wir öffentlich unter https://github.com/thunlp/LLaVA-UHD zur Verfügung.