HyperAIHyperAI

Command Palette

Search for a command to run...

LLaVA-UHD: Ein LMM, das jedes Seitenverhältnis und hochauflösende Bilder wahrnimmt

Ruyi Xu Yuan Yao Zonghao Guo Junbo Cui Zanlin Ni Chunjiang Ge Tat-Seng Chua Zhiyuan Liu Maosong Sun Gao Huang

Zusammenfassung

Die visuelle Kodierung bildet die Grundlage großer multimodaler Modelle (LMMs) für das Verständnis der visuellen Welt. Herkömmliche LMMs verarbeiten Bilder in festen Abmessungen und begrenzter Auflösung, während neuere Ansätze in dieser Richtung in Bezug auf Anpassungsfähigkeit, Effizienz und sogar Korrektheit eingeschränkt sind. In dieser Arbeit untersuchen wir zunächst GPT-4V und LLaVA-1.5 als repräsentative Beispiele und decken systematische Mängel auf, die in ihrer visuellen Kodierungsstrategie begründet sind. Um diese Herausforderungen zu bewältigen, präsentieren wir LLaVA-UHD, ein großes multimodales Modell, das Bilder in beliebigen Seitenverhältnissen und hoher Auflösung effizient verarbeiten kann. LLaVA-UHD besteht aus drei Schlüsselkomponenten: (1) einer Bildmodularisierungsstrategie, die Bilder in native Auflösung in kleinere, variabel dimensionierte Fragmente aufteilt, um eine effiziente und skalierbare Kodierung zu ermöglichen; (2) einem Kompressionsmodul, das die Bild-Token aus den visuellen Encoder weiter verdichtet; und (3) einem räumlichen Schema zur Organisation der Fragment-Token für große Sprachmodelle (LLMs). Umfassende Experimente zeigen, dass LLaVA-UHD etablierte LMMs, die mit 2 bis 3 Größenordnungen mehr Daten trainiert wurden, in 9 Benchmarks übertrifft. Insbesondere erreicht unser auf LLaVA-1.5 336x336 basierendes Modell Bilder mit einer sechsmal größeren Auflösung (d.h. 672x1088) mit lediglich 94 % der Inference-Rechenleistung und erzielt eine Verbesserung der Genauigkeit um 6,4 Prozentpunkte auf TextVQA. Zudem kann das Modell effizient in akademischen Umgebungen trainiert werden – innerhalb von 23 Stunden auf 8 A100-GPUs (gegenüber 26 Stunden für LLaVA-1.5). Die Daten und den Quellcode stellen wir öffentlich unter https://github.com/thunlp/LLaVA-UHD zur Verfügung.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
LLaVA-UHD: Ein LMM, das jedes Seitenverhältnis und hochauflösende Bilder wahrnimmt | Paper | HyperAI