HyperAIHyperAI
vor 11 Tagen

MIMIC-IT: Multi-Modal In-Context Instruction Tuning

Bo Li, Yuanhan Zhang, Liangyu Chen, Jinghao Wang, Fanyi Pu, Jingkang Yang, Chunyuan Li, Ziwei Liu
MIMIC-IT: Multi-Modal In-Context Instruction Tuning
Abstract

Hochwertige Anweisungen und Antworten sind entscheidend für die Zero-Shot-Leistung großer Sprachmodelle bei interaktiven natürlichsprachlichen Aufgaben. Für interaktive visuell-sprachliche Aufgaben, die komplexe visuelle Szenen beinhalten, sind eine große Menge an vielfältigen und kreativen Anweisungs-Antwort-Paaren unerlässlich, um visuell-sprachliche Modelle (VLMs) zu trainieren. Derzeit bleibt die Verfügbarkeit von visuell-sprachlichen Anweisungs-Antwort-Paaren hinsichtlich Menge, Vielfalt und Kreativität jedoch begrenzt, was die Generalisierbarkeit interaktiver VLMs erschwert. Hier stellen wir MIMIC-IT (MultI-Modal In-Context Instruction Tuning) vor, einen Datensatz mit 2,8 Millionen multimodalen Anweisungs-Antwort-Paaren, wovon 2,2 Millionen einzigartige Anweisungen aus Bildern und Videos stammen. Jedes Paar wird durch multimodale Kontextinformationen ergänzt, die conversationalen Kontexte bilden und VLMs bei Wahrnehmung, Schlussfolgerung und Planung unterstützen sollen. Der Prozess zur Erhebung der Anweisungs-Antwort-Paare, der als Syphus bezeichnet wird, wird durch eine automatisierte Annotierungspipeline skaliert, die menschliche Expertise mit den Fähigkeiten von GPT kombiniert. Anhand des MIMIC-IT-Datensatzes trainieren wir ein großes VLM namens Otter. Ausführliche Evaluierungen an verschiedenen visuell-sprachlichen Benchmarks zeigen, dass Otter bemerkenswerte Kompetenzen in multimodaler Wahrnehmung, Schlussfolgerung und kontextbasiertem Lernen aufweist. Menschliche Bewertungen belegen zudem eine effektive Ausrichtung an den Absichten der Nutzer. Wir veröffentlichen den MIMIC-IT-Datensatz, die Pipeline zur Erhebung von Anweisungs-Antwort-Paaren, die Benchmarks sowie das Otter-Modell.

MIMIC-IT: Multi-Modal In-Context Instruction Tuning | Neueste Forschungsarbeiten | HyperAI