HyperAIHyperAI

Command Palette

Search for a command to run...

Otter: Ein multimodales Modell mit In-Context-Anweisungstuning

Bo Li Yuanhan Zhang Liangyu Chen Jinghao Wang Jingkang Yang Ziwei Liu

Zusammenfassung

Große Sprachmodelle (LLMs) haben aufgrund ihrer Vortrainings auf umfangreichen Textdatensätzen erhebliche universelle Fähigkeiten als Few-/Zero-Shot-Lerner in verschiedenen Aufgaben demonstriert, wie beispielsweise GPT-3, das zu InstructGPT und ChatGPT weiterentwickelt wurde und in der Lage ist, reale Weltaufgaben effektiv durch natürliche Sprachanweisungen zu bewältigen. In diesem Paper schlagen wir vor, die Anweisungstuning-Technik in multimodale Modelle einzuführen, motiviert durch den upstream-Interleaved-Format-Vortrainingsdatensatz des Flamingo-Modells. Wir verfolgen einen ähnlichen Ansatz, um unseren MultI-Modal In-Context Instruction Tuning (MIMIC-IT)-Datensatz zu erstellen. Anschließend stellen wir Otter vor, ein multimodales Modell auf Basis von OpenFlamingo (der Open-Source-Version des DeepMind-Flamingo-Modells), das auf MIMIC-IT trainiert wurde und eine verbesserte Fähigkeit zum Folgen von Anweisungen sowie zum In-Context-Lernen zeigt. Zudem optimieren wir die Implementierung von OpenFlamingo für Forscher, wodurch die erforderlichen Trainingsressourcen von 1× A100-GPU auf 4× RTX-3090-GPUs reduziert werden, und integrieren sowohl OpenFlamingo als auch Otter in Hugging Face Transformers, um eine breitere Forschergemeinschaft zu ermöglichen, diese Modelle in ihre individuellen Trainings- und Inferenz-Pipelines einzubinden.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Otter: Ein multimodales Modell mit In-Context-Anweisungstuning | Paper | HyperAI