VILA: Zur Vortrainingsstrategie für visuelle Sprachmodelle

Visual Language Models (VLMs) haben aufgrund des jüngsten Erfolgs großer Sprachmodelle (Large Language Models, LLMs) rasant Fortschritte gemacht. In den letzten Jahren wurden zunehmend Anstrengungen unternommen, visuelle Anweisungstuning-Verfahren zu entwickeln, um LLMs mit visuellen Eingaben zu erweitern. Allerdings fehlt es bisher an einer tiefgreifenden Untersuchung des visuell-sprachlichen Vortrainingsprozesses, bei dem das Modell lernt, gemeinsam mit beiden Modalitäten zu modellieren. In dieser Arbeit untersuchen wir die Gestaltungsoptionen für das Vortraining von VLMs, indem wir LLMs schrittweise und kontrolliert durch vergleichende Ansätze in VLMs überführen. Wir präsentieren drei zentrale Erkenntnisse: (1) Das Fixieren von LLMs während des Vortrainings ermöglicht eine anständige Zero-Shot-Leistung, weist jedoch eine eingeschränkte Fähigkeit zum In-Context-Lernen auf, die erst durch das Freigeben der LLMs erreicht wird; (2) Abwechselndes Vortrainingsdatenmaterial ist vorteilhaft, während reine Bild-Text-Paare nicht optimal sind; (3) Das erneute Mischen von rein textbasierten Anweisungsdaten in Bild-Text-Daten während des Anweisungsfine-Tunings beseitigt nicht nur die Leistungsverschlechterung bei rein textbasierten Aufgaben, sondern steigert auch die Genauigkeit bei VLM-Aufgaben. Mit einer verbesserten Vortrainingsstrategie entwickeln wir VILA, eine Familie von Visual Language Modellen, die auf den wichtigsten Benchmarks konsistent die derzeitigen State-of-the-Art-Modelle wie LLaVA-1.5 übertrifft, ohne auf zusätzliche technische „Kniffe“ angewiesen zu sein. Zudem offenbart das multimodale Vortraining ansprechende Eigenschaften von VILA, darunter die Fähigkeit zur mehrfachbildbasierten Schlussfolgerung, eine verbesserte In-Context-Lernfähigkeit sowie ein besseres Weltwissen.