vor 11 Tagen

Otter: Ein multimodales Modell mit In-Context-Anweisungstuning

Bo Li, Yuanhan Zhang, Liangyu Chen, Jinghao Wang, Jingkang Yang, Ziwei Liu

Abstract

Große Sprachmodelle (LLMs) haben aufgrund ihrer Vortrainings auf umfangreichen Textdatensätzen erhebliche universelle Fähigkeiten als Few-/Zero-Shot-Lerner in verschiedenen Aufgaben demonstriert, wie beispielsweise GPT-3, das zu InstructGPT und ChatGPT weiterentwickelt wurde und in der Lage ist, reale Weltaufgaben effektiv durch natürliche Sprachanweisungen zu bewältigen. In diesem Paper schlagen wir vor, die Anweisungstuning-Technik in multimodale Modelle einzuführen, motiviert durch den upstream-Interleaved-Format-Vortrainingsdatensatz des Flamingo-Modells. Wir verfolgen einen ähnlichen Ansatz, um unseren MultI-Modal In-Context Instruction Tuning (MIMIC-IT)-Datensatz zu erstellen. Anschließend stellen wir Otter vor, ein multimodales Modell auf Basis von OpenFlamingo (der Open-Source-Version des DeepMind-Flamingo-Modells), das auf MIMIC-IT trainiert wurde und eine verbesserte Fähigkeit zum Folgen von Anweisungen sowie zum In-Context-Lernen zeigt. Zudem optimieren wir die Implementierung von OpenFlamingo für Forscher, wodurch die erforderlichen Trainingsressourcen von 1× A100-GPU auf 4× RTX-3090-GPUs reduziert werden, und integrieren sowohl OpenFlamingo als auch Otter in Hugging Face Transformers, um eine breitere Forschergemeinschaft zu ermöglichen, diese Modelle in ihre individuellen Trainings- und Inferenz-Pipelines einzubinden.