HyperAIHyperAI

Command Palette

Search for a command to run...

ConvLLaVA: Hierarchische Backbone-Architekturen als visueller Encoder für große Multimodale Modelle

Chunjiang Ge Sijie Cheng Ziming Wang Jiale Yuan Yuan Gao Jun Song Shiji Song Gao Huang Bo Zheng

Zusammenfassung

Hochauflösende große multimodale Modelle (LMMs) stoßen auf die Herausforderungen von übermäßigen visuellen Tokens und quadratischer visueller Komplexität. Aktuelle hochauflösende LMMs adressieren die quadratische Komplexität, erzeugen jedoch weiterhin übermäßige visuelle Tokens. Die Redundanz dieser visuellen Tokens stellt jedoch das zentrale Problem dar, da sie zu erheblich höherem Rechenaufwand führt. Um dieses Problem zu mindern, stellen wir ConvLLaVA vor, das ConvNeXt – einen hierarchischen Backbone – als visuellen Encoder für LMMs anstelle des Vision Transformers (ViT) nutzt. ConvLLaVA komprimiert hochauflösende Bilder zu informationsreichen visuellen Merkmalen und verhindert so effektiv die Erzeugung übermäßiger visueller Tokens. Um die Leistungsfähigkeit von ConvLLaVA weiter zu steigern, schlagen wir zwei entscheidende Optimierungen vor. Da ein auf niedriger Auflösung vortrainiertes ConvNeXt bei direkter Anwendung auf hochauflösende Eingaben unterdurchschnittlich abschneidet, aktualisieren wir es, um diese Leistungslücke zu schließen. Zudem ist das ursprüngliche Kompressionsverhältnis von ConvNeXt für viel höher auflösende Eingaben unzureichend; daher trainieren wir eine zusätzliche Stufe, um die visuellen Tokens weiter zu komprimieren und so die Redundanz zu reduzieren. Diese Optimierungen ermöglichen es ConvLLaVA, Eingaben mit einer Auflösung von 1536×1536 zu verarbeiten und dabei lediglich 576 visuelle Tokens zu generieren, wodurch beliebige Seitenverhältnisse unterstützt werden können. Experimentelle Ergebnisse zeigen, dass unsere Methode auf gängigen Benchmarks eine konkurrenzfähige Leistung im Vergleich zu führenden Modellen erreicht. Die ConvLLaVA-Modellreihe ist öffentlich verfügbar unter: https://github.com/alibaba/conv-llava.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp