HyperAIHyperAI

Command Palette

Search for a command to run...

MIMIC-IT: Multi-Modal In-Context Instruction Tuning

Bo Li Yuanhan Zhang Liangyu Chen Jinghao Wang Fanyi Pu Jingkang Yang Chunyuan Li Ziwei Liu

Zusammenfassung

Hochwertige Anweisungen und Antworten sind entscheidend für die Zero-Shot-Leistung großer Sprachmodelle bei interaktiven natürlichsprachlichen Aufgaben. Für interaktive visuell-sprachliche Aufgaben, die komplexe visuelle Szenen beinhalten, sind eine große Menge an vielfältigen und kreativen Anweisungs-Antwort-Paaren unerlässlich, um visuell-sprachliche Modelle (VLMs) zu trainieren. Derzeit bleibt die Verfügbarkeit von visuell-sprachlichen Anweisungs-Antwort-Paaren hinsichtlich Menge, Vielfalt und Kreativität jedoch begrenzt, was die Generalisierbarkeit interaktiver VLMs erschwert. Hier stellen wir MIMIC-IT (MultI-Modal In-Context Instruction Tuning) vor, einen Datensatz mit 2,8 Millionen multimodalen Anweisungs-Antwort-Paaren, wovon 2,2 Millionen einzigartige Anweisungen aus Bildern und Videos stammen. Jedes Paar wird durch multimodale Kontextinformationen ergänzt, die conversationalen Kontexte bilden und VLMs bei Wahrnehmung, Schlussfolgerung und Planung unterstützen sollen. Der Prozess zur Erhebung der Anweisungs-Antwort-Paare, der als Syphus bezeichnet wird, wird durch eine automatisierte Annotierungspipeline skaliert, die menschliche Expertise mit den Fähigkeiten von GPT kombiniert. Anhand des MIMIC-IT-Datensatzes trainieren wir ein großes VLM namens Otter. Ausführliche Evaluierungen an verschiedenen visuell-sprachlichen Benchmarks zeigen, dass Otter bemerkenswerte Kompetenzen in multimodaler Wahrnehmung, Schlussfolgerung und kontextbasiertem Lernen aufweist. Menschliche Bewertungen belegen zudem eine effektive Ausrichtung an den Absichten der Nutzer. Wir veröffentlichen den MIMIC-IT-Datensatz, die Pipeline zur Erhebung von Anweisungs-Antwort-Paaren, die Benchmarks sowie das Otter-Modell.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp