11 天前

Otter：一种具有上下文指令微调的多模态模型

Bo Li, Yuanhan Zhang, Liangyu Chen, Jinghao Wang, Jingkang Yang, Ziwei Liu

摘要

大规模语言模型（LLMs）由于在海量文本数据上的预训练，已在多种任务中展现出显著的少样本（few-shot）与零样本（zero-shot）学习能力，典型代表如GPT-3，其后续发展演进为InstructGPT和ChatGPT，能够有效理解自然语言指令并完成现实世界任务。本文提出将指令微调（instruction tuning）引入多模态模型，其动机源于Flamingo模型所采用的上游交错式预训练数据格式。我们采用类似方法构建了多模态上下文指令微调数据集——MultI-Modal In-Context Instruction Tuning（MIMIC-IT）。在此基础上，我们提出了Otter，一个基于OpenFlamingo（DeepMind Flamingo的开源版本）的多模态模型，该模型在MIMIC-IT数据集上进行训练，显著提升了指令遵循能力与上下文学习性能。此外，我们对OpenFlamingo的实现进行了优化，将所需训练资源从原先的1块A100 GPU降低至4块RTX-3090 GPU，大幅降低了研究门槛，实现了资源的普惠化。同时，我们已将OpenFlamingo与Otter集成至Hugging Face Transformers生态，使更多研究者能够便捷地将其融入自定义的训练与推理流程中。