vor 6 Monaten

Zusammenfassung

Hochwertige Anweisungen und Antworten sind entscheidend für die Zero-Shot-Leistung großer Sprachmodelle bei interaktiven natürlichsprachlichen Aufgaben. Für interaktive visuell-sprachliche Aufgaben, die komplexe visuelle Szenen beinhalten, sind eine große Menge an vielfältigen und kreativen Anweisungs-Antwort-Paaren unerlässlich, um visuell-sprachliche Modelle (VLMs) zu trainieren. Derzeit bleibt die Verfügbarkeit von visuell-sprachlichen Anweisungs-Antwort-Paaren hinsichtlich Menge, Vielfalt und Kreativität jedoch begrenzt, was die Generalisierbarkeit interaktiver VLMs erschwert. Hier stellen wir MIMIC-IT (MultI-Modal In-Context Instruction Tuning) vor, einen Datensatz mit 2,8 Millionen multimodalen Anweisungs-Antwort-Paaren, wovon 2,2 Millionen einzigartige Anweisungen aus Bildern und Videos stammen. Jedes Paar wird durch multimodale Kontextinformationen ergänzt, die conversationalen Kontexte bilden und VLMs bei Wahrnehmung, Schlussfolgerung und Planung unterstützen sollen. Der Prozess zur Erhebung der Anweisungs-Antwort-Paare, der als Syphus bezeichnet wird, wird durch eine automatisierte Annotierungspipeline skaliert, die menschliche Expertise mit den Fähigkeiten von GPT kombiniert. Anhand des MIMIC-IT-Datensatzes trainieren wir ein großes VLM namens Otter. Ausführliche Evaluierungen an verschiedenen visuell-sprachlichen Benchmarks zeigen, dass Otter bemerkenswerte Kompetenzen in multimodaler Wahrnehmung, Schlussfolgerung und kontextbasiertem Lernen aufweist. Menschliche Bewertungen belegen zudem eine effektive Ausrichtung an den Absichten der Nutzer. Wir veröffentlichen den MIMIC-IT-Datensatz, die Pipeline zur Erhebung von Anweisungs-Antwort-Paaren, die Benchmarks sowie das Otter-Modell.

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 6 Monaten

Visuelle Fragebeantwortung

Any-to-Any

Überwachtes Feinabstimmen

Ansatz/Rahmenwerk

Multimodal

Aufgabe

Bo Li Yuanhan Zhang Liangyu Chen Jinghao Wang Fanyi Pu Jingkang Yang Chunyuan Li Ziwei Liu

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 6 Monaten

Visuelle Fragebeantwortung

Any-to-Any

Überwachtes Feinabstimmen

Ansatz/Rahmenwerk

Multimodal

Aufgabe

Bo Li Yuanhan Zhang Liangyu Chen Jinghao Wang Fanyi Pu Jingkang Yang Chunyuan Li Ziwei Liu

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

MIMIC-IT: Multi-Modal In-Context Instruction Tuning

Bo Li Yuanhan Zhang Liangyu Chen Jinghao Wang Fanyi Pu Jingkang Yang Chunyuan Li Ziwei Liu

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

MIMIC-IT: Multi-Modal In-Context Instruction Tuning

Bo Li Yuanhan Zhang Liangyu Chen Jinghao Wang Fanyi Pu Jingkang Yang Chunyuan Li Ziwei Liu

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

MIMIC-IT: Multi-Modal In-Context Instruction Tuning

Bo Li Yuanhan Zhang Liangyu Chen Jinghao Wang Fanyi Pu Jingkang Yang Chunyuan Li Ziwei Liu

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters