HyperAIHyperAI

Command Palette

Search for a command to run...

Visuelle Anweisungstuning

Haotian Liu Chunyuan Li Qingyang Wu Yong Jae Lee

Zusammenfassung

Die Anpassung großer Sprachmodelle (LLMs) durch maschinengenerierte Befehlsdaten hat die Fähigkeiten im Zero-Shot-Lernen für neue Aufgaben verbessert, jedoch wurde dieses Konzept im multimodalen Bereich weniger untersucht. In dieser Arbeit stellen wir den ersten Versuch vor, ausschließlich mit GPT-4 sprachliche Daten zu generieren, die sowohl textbasierte als auch bildbasierte Befehle umfassen. Durch die Anpassung an diese generierten Daten führen wir LLaVA: Large Language and Vision Assistant (Großer Sprach- und Bildassistent) ein. Dies ist ein von Anfang bis Ende trainiertes großes multimodales Modell, das einen visuellen Encoder und ein LLM verbindet, um allgemeine visuelle und sprachliche Verständnisaufgaben zu lösen. Unsere ersten Experimente zeigen, dass LLaVA beeindruckende multimodale Chatfähigkeiten aufweist, manchmal Verhaltensweisen von multimodalen Versionen von GPT-4 bei unbekannten Bildern/Befehlen zeigt und einen relativen Score von 85,1 % im Vergleich zu GPT-4 auf einem synthetischen multimodalen Befehlsdatensatz erzielt. Bei der Feinabstimmung auf Science QA erreicht die Synergie zwischen LLaVA und GPT-4 eine neue Standarte der Genauigkeit von 92,53 %. Wir stellen die von GPT-4 generierten visuellen Befehlsanpassungsdaten sowie unser Modell und Codebasis öffentlich zur Verfügung.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Visuelle Anweisungstuning | Paper | HyperAI