HyperAIHyperAI

Command Palette

Search for a command to run...

Otter:一种具有上下文指令微调的多模态模型

Bo Li Yuanhan Zhang Liangyu Chen Jinghao Wang Jingkang Yang Ziwei Liu

摘要

大规模语言模型(LLMs)由于在海量文本数据上的预训练,已在多种任务中展现出显著的少样本(few-shot)与零样本(zero-shot)学习能力,典型代表如GPT-3,其后续发展演进为InstructGPT和ChatGPT,能够有效理解自然语言指令并完成现实世界任务。本文提出将指令微调(instruction tuning)引入多模态模型,其动机源于Flamingo模型所采用的上游交错式预训练数据格式。我们采用类似方法构建了多模态上下文指令微调数据集——MultI-Modal In-Context Instruction Tuning(MIMIC-IT)。在此基础上,我们提出了Otter,一个基于OpenFlamingo(DeepMind Flamingo的开源版本)的多模态模型,该模型在MIMIC-IT数据集上进行训练,显著提升了指令遵循能力与上下文学习性能。此外,我们对OpenFlamingo的实现进行了优化,将所需训练资源从原先的1块A100 GPU降低至4块RTX-3090 GPU,大幅降低了研究门槛,实现了资源的普惠化。同时,我们已将OpenFlamingo与Otter集成至Hugging Face Transformers生态,使更多研究者能够便捷地将其融入自定义的训练与推理流程中。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
Otter:一种具有上下文指令微调的多模态模型 | 论文 | HyperAI超神经