Command Palette
Search for a command to run...
Visuelle Repräsentationsausrichtung für multimodale große Sprachmodelle

Abstract
Multimodale große Sprachmodelle (MLLMs), die mittels visueller Anweisungstuning trainiert wurden, haben bei einer Vielzahl von Aufgaben starke Leistungen erzielt. Dennoch sind sie in visionzentrierten Aufgaben wie Objektzählung oder räumlicher Schlussfolgerung weiterhin eingeschränkt. Wir weisen diese Lücke auf das vorherrschende Paradigma der rein textbasierten Supervision zurück, das der visuellen Verarbeitungskette lediglich indirekte Anleitung bietet und häufig dazu führt, dass MLLMs feinste visuelle Details während des Trainings verlieren. In diesem Artikel stellen wir VIRAL (VIsual Representation ALignment) vor – eine einfache, jedoch wirksame Regularisierungsstrategie, die die internen visuellen Repräsentationen von MLLMs mit denen von vortrainierten Vision-Foundation-Modellen (VFMs) ausrichtet. Durch die explizite Durchsetzung dieser Ausrichtung ermöglicht VIRAL es dem Modell, nicht nur kritische visuelle Details aus dem Eingabevision-Encoder beizubehalten, sondern auch zusätzliche visuelle Kenntnisse aus VFMs zu integrieren. Dadurch wird die Fähigkeit des Modells zur Schlussfolgerung bei komplexen visuellen Eingaben erheblich verbessert. Unsere Experimente zeigen konsistente Leistungssteigerungen auf allen Aufgaben in weit verbreiteten multimodalen Benchmarks. Zudem führen wir umfassende Ablationsstudien durch, um die zentralen Designentscheidungen unseres Ansatzes zu validieren. Wir sind überzeugt, dass diese einfache Erkenntnis eine wichtige neue Richtung für die effektive Integration visueller Informationen im Training von MLLMs eröffnet.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.