vor 2 Monaten

Visuelle Repräsentationsausrichtung für multimodale große Sprachmodelle

Heeji Yoon Jaewoo Jung Junwan Kim Hyungyu Choi Heeseong Shin Sangbeom Lim Honggyu An Chaehyun Kim Jisang Han Donghyun Kim

Abstract

Multimodale große Sprachmodelle (MLLMs), die mittels visueller Anweisungstuning trainiert wurden, haben bei einer Vielzahl von Aufgaben starke Leistungen erzielt. Dennoch sind sie in visionzentrierten Aufgaben wie Objektzählung oder räumlicher Schlussfolgerung weiterhin eingeschränkt. Wir weisen diese Lücke auf das vorherrschende Paradigma der rein textbasierten Supervision zurück, das der visuellen Verarbeitungskette lediglich indirekte Anleitung bietet und häufig dazu führt, dass MLLMs feinste visuelle Details während des Trainings verlieren. In diesem Artikel stellen wir VIRAL (VIsual Representation ALignment) vor – eine einfache, jedoch wirksame Regularisierungsstrategie, die die internen visuellen Repräsentationen von MLLMs mit denen von vortrainierten Vision-Foundation-Modellen (VFMs) ausrichtet. Durch die explizite Durchsetzung dieser Ausrichtung ermöglicht VIRAL es dem Modell, nicht nur kritische visuelle Details aus dem Eingabevision-Encoder beizubehalten, sondern auch zusätzliche visuelle Kenntnisse aus VFMs zu integrieren. Dadurch wird die Fähigkeit des Modells zur Schlussfolgerung bei komplexen visuellen Eingaben erheblich verbessert. Unsere Experimente zeigen konsistente Leistungssteigerungen auf allen Aufgaben in weit verbreiteten multimodalen Benchmarks. Zudem führen wir umfassende Ablationsstudien durch, um die zentralen Designentscheidungen unseres Ansatzes zu validieren. Wir sind überzeugt, dass diese einfache Erkenntnis eine wichtige neue Richtung für die effektive Integration visueller Informationen im Training von MLLMs eröffnet.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding

Sofort einsatzbereit GPUs

Beste Preise

Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

Visuelle Repräsentationsausrichtung für multimodale große Sprachmodelle

Heeji Yoon Jaewoo Jung Junwan Kim Hyungyu Choi Heeseong Shin Sangbeom Lim Honggyu An Chaehyun Kim Jisang Han Donghyun Kim3 more

Abstract

KI mit KI entwickeln

Hyper Newsletters

Heeji Yoon Jaewoo Jung Junwan Kim Hyungyu Choi Heeseong Shin Sangbeom Lim Honggyu An Chaehyun Kim Jisang Han Donghyun Kim