13日前
オターア:コンテキスト内インストラクションチューニングを備えたマルチモーダルモデル
Bo Li, Yuanhan Zhang, Liangyu Chen, Jinghao Wang, Jingkang Yang, Ziwei Liu

要約
大規模言語モデル(LLM)は、GPT-3をはじめとする膨大なテキストデータに対する事前学習により、少数/ゼロショット学習としてさまざまなタスクにおいて汎用的な能力を示しており、InstructGPTやChatGPTといったモデルの登場により、自然言語の指示に従って現実世界のタスクを効果的に実行する能力が実現された。本論文では、Flamingoモデルが採用した上流のインタリーブ形式事前学習データセットに着想を得て、マルチモーダルモデルに指示チューニング(instruction tuning)を導入することを提案する。これに伴い、類似のアプローチを用いて、マルチモーダル・インコンテキスト・インストラクションチューニング(MIMIC-IT)データセットを構築した。その後、DeepMindのFlamingoのオープンソース版であるOpenFlamingoを基盤として、MIMIC-ITデータセットで学習させたマルチモーダルモデル「Otter」を提案する。Otterは、指示の理解能力およびコンテキスト内学習能力において優れた性能を発揮する。さらに、研究者向けにOpenFlamingoの実装を最適化し、従来の1台のA100 GPUが必要であったトレーニングリソースを、4台のRTX-3090 GPUにまで低コスト化することで、モデル利用の民主化を実現した。加えて、OpenFlamingoおよびOtterをHugging Face Transformersに統合し、より多くの研究者がカスタマイズされたトレーニングおよび推論パイプラインにこれらのモデルを容易に組み込めるようにした。