HyperAIHyperAI

Command Palette

Search for a command to run...

vor 2 Monaten

Visuelle Repräsentationsausrichtung für multimodale große Sprachmodelle

Visuelle Repräsentationsausrichtung für multimodale große Sprachmodelle

Abstract

Multimodale große Sprachmodelle (MLLMs), die mittels visueller Anweisungstuning trainiert wurden, haben bei einer Vielzahl von Aufgaben starke Leistungen erzielt. Dennoch sind sie in visionzentrierten Aufgaben wie Objektzählung oder räumlicher Schlussfolgerung weiterhin eingeschränkt. Wir weisen diese Lücke auf das vorherrschende Paradigma der rein textbasierten Supervision zurück, das der visuellen Verarbeitungskette lediglich indirekte Anleitung bietet und häufig dazu führt, dass MLLMs feinste visuelle Details während des Trainings verlieren. In diesem Artikel stellen wir VIRAL (VIsual Representation ALignment) vor – eine einfache, jedoch wirksame Regularisierungsstrategie, die die internen visuellen Repräsentationen von MLLMs mit denen von vortrainierten Vision-Foundation-Modellen (VFMs) ausrichtet. Durch die explizite Durchsetzung dieser Ausrichtung ermöglicht VIRAL es dem Modell, nicht nur kritische visuelle Details aus dem Eingabevision-Encoder beizubehalten, sondern auch zusätzliche visuelle Kenntnisse aus VFMs zu integrieren. Dadurch wird die Fähigkeit des Modells zur Schlussfolgerung bei komplexen visuellen Eingaben erheblich verbessert. Unsere Experimente zeigen konsistente Leistungssteigerungen auf allen Aufgaben in weit verbreiteten multimodalen Benchmarks. Zudem führen wir umfassende Ablationsstudien durch, um die zentralen Designentscheidungen unseres Ansatzes zu validieren. Wir sind überzeugt, dass diese einfache Erkenntnis eine wichtige neue Richtung für die effektive Integration visueller Informationen im Training von MLLMs eröffnet.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Visuelle Repräsentationsausrichtung für multimodale große Sprachmodelle | Forschungsarbeiten | HyperAI