11 天前

Otter:一种具有上下文指令微调的多模态模型

Bo Li, Yuanhan Zhang, Liangyu Chen, Jinghao Wang, Jingkang Yang, Ziwei Liu
Otter:一种具有上下文指令微调的多模态模型
摘要

大规模语言模型(LLMs)由于在海量文本数据上的预训练,已在多种任务中展现出显著的少样本(few-shot)与零样本(zero-shot)学习能力,典型代表如GPT-3,其后续发展演进为InstructGPT和ChatGPT,能够有效理解自然语言指令并完成现实世界任务。本文提出将指令微调(instruction tuning)引入多模态模型,其动机源于Flamingo模型所采用的上游交错式预训练数据格式。我们采用类似方法构建了多模态上下文指令微调数据集——MultI-Modal In-Context Instruction Tuning(MIMIC-IT)。在此基础上,我们提出了Otter,一个基于OpenFlamingo(DeepMind Flamingo的开源版本)的多模态模型,该模型在MIMIC-IT数据集上进行训练,显著提升了指令遵循能力与上下文学习性能。此外,我们对OpenFlamingo的实现进行了优化,将所需训练资源从原先的1块A100 GPU降低至4块RTX-3090 GPU,大幅降低了研究门槛,实现了资源的普惠化。同时,我们已将OpenFlamingo与Otter集成至Hugging Face Transformers生态,使更多研究者能够便捷地将其融入自定义的训练与推理流程中。

Otter:一种具有上下文指令微调的多模态模型 | 最新论文 | HyperAI超神经