HyperAIHyperAI

Command Palette

Search for a command to run...

オターア:コンテキスト内インストラクションチューニングを備えたマルチモーダルモデル

Bo Li Yuanhan Zhang Liangyu Chen Jinghao Wang Jingkang Yang Ziwei Liu

概要

大規模言語モデル(LLM)は、GPT-3をはじめとする膨大なテキストデータに対する事前学習により、少数/ゼロショット学習としてさまざまなタスクにおいて汎用的な能力を示しており、InstructGPTやChatGPTといったモデルの登場により、自然言語の指示に従って現実世界のタスクを効果的に実行する能力が実現された。本論文では、Flamingoモデルが採用した上流のインタリーブ形式事前学習データセットに着想を得て、マルチモーダルモデルに指示チューニング(instruction tuning)を導入することを提案する。これに伴い、類似のアプローチを用いて、マルチモーダル・インコンテキスト・インストラクションチューニング(MIMIC-IT)データセットを構築した。その後、DeepMindのFlamingoのオープンソース版であるOpenFlamingoを基盤として、MIMIC-ITデータセットで学習させたマルチモーダルモデル「Otter」を提案する。Otterは、指示の理解能力およびコンテキスト内学習能力において優れた性能を発揮する。さらに、研究者向けにOpenFlamingoの実装を最適化し、従来の1台のA100 GPUが必要であったトレーニングリソースを、4台のRTX-3090 GPUにまで低コスト化することで、モデル利用の民主化を実現した。加えて、OpenFlamingoおよびOtterをHugging Face Transformersに統合し、より多くの研究者がカスタマイズされたトレーニングおよび推論パイプラインにこれらのモデルを容易に組み込めるようにした。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています