HyperAIHyperAI
vor 16 Tagen

ConvLLaVA: Hierarchische Backbone-Architekturen als visueller Encoder für große Multimodale Modelle

Chunjiang Ge, Sijie Cheng, Ziming Wang, Jiale Yuan, Yuan Gao, Jun Song, Shiji Song, Gao Huang, Bo Zheng
ConvLLaVA: Hierarchische Backbone-Architekturen als visueller Encoder für große Multimodale Modelle
Abstract

Hochauflösende große multimodale Modelle (LMMs) stoßen auf die Herausforderungen von übermäßigen visuellen Tokens und quadratischer visueller Komplexität. Aktuelle hochauflösende LMMs adressieren die quadratische Komplexität, erzeugen jedoch weiterhin übermäßige visuelle Tokens. Die Redundanz dieser visuellen Tokens stellt jedoch das zentrale Problem dar, da sie zu erheblich höherem Rechenaufwand führt. Um dieses Problem zu mindern, stellen wir ConvLLaVA vor, das ConvNeXt – einen hierarchischen Backbone – als visuellen Encoder für LMMs anstelle des Vision Transformers (ViT) nutzt. ConvLLaVA komprimiert hochauflösende Bilder zu informationsreichen visuellen Merkmalen und verhindert so effektiv die Erzeugung übermäßiger visueller Tokens. Um die Leistungsfähigkeit von ConvLLaVA weiter zu steigern, schlagen wir zwei entscheidende Optimierungen vor. Da ein auf niedriger Auflösung vortrainiertes ConvNeXt bei direkter Anwendung auf hochauflösende Eingaben unterdurchschnittlich abschneidet, aktualisieren wir es, um diese Leistungslücke zu schließen. Zudem ist das ursprüngliche Kompressionsverhältnis von ConvNeXt für viel höher auflösende Eingaben unzureichend; daher trainieren wir eine zusätzliche Stufe, um die visuellen Tokens weiter zu komprimieren und so die Redundanz zu reduzieren. Diese Optimierungen ermöglichen es ConvLLaVA, Eingaben mit einer Auflösung von 1536×1536 zu verarbeiten und dabei lediglich 576 visuelle Tokens zu generieren, wodurch beliebige Seitenverhältnisse unterstützt werden können. Experimentelle Ergebnisse zeigen, dass unsere Methode auf gängigen Benchmarks eine konkurrenzfähige Leistung im Vergleich zu führenden Modellen erreicht. Die ConvLLaVA-Modellreihe ist öffentlich verfügbar unter: https://github.com/alibaba/conv-llava.

ConvLLaVA: Hierarchische Backbone-Architekturen als visueller Encoder für große Multimodale Modelle | Neueste Forschungsarbeiten | HyperAI