Visuelle Anweisungstuning

Die Anpassung großer Sprachmodelle (LLMs) durch maschinengenerierte Befehlsdaten hat die Fähigkeiten im Zero-Shot-Lernen für neue Aufgaben verbessert, jedoch wurde dieses Konzept im multimodalen Bereich weniger untersucht. In dieser Arbeit stellen wir den ersten Versuch vor, ausschließlich mit GPT-4 sprachliche Daten zu generieren, die sowohl textbasierte als auch bildbasierte Befehle umfassen. Durch die Anpassung an diese generierten Daten führen wir LLaVA: Large Language and Vision Assistant (Großer Sprach- und Bildassistent) ein. Dies ist ein von Anfang bis Ende trainiertes großes multimodales Modell, das einen visuellen Encoder und ein LLM verbindet, um allgemeine visuelle und sprachliche Verständnisaufgaben zu lösen. Unsere ersten Experimente zeigen, dass LLaVA beeindruckende multimodale Chatfähigkeiten aufweist, manchmal Verhaltensweisen von multimodalen Versionen von GPT-4 bei unbekannten Bildern/Befehlen zeigt und einen relativen Score von 85,1 % im Vergleich zu GPT-4 auf einem synthetischen multimodalen Befehlsdatensatz erzielt. Bei der Feinabstimmung auf Science QA erreicht die Synergie zwischen LLaVA und GPT-4 eine neue Standarte der Genauigkeit von 92,53 %. Wir stellen die von GPT-4 generierten visuellen Befehlsanpassungsdaten sowie unser Modell und Codebasis öffentlich zur Verfügung.