16日前

MIMIC-IT:マルチモーダル・イン・コンテキスト・インストラクションチューニング

Bo Li, Yuanhan Zhang, Liangyu Chen, Jinghao Wang, Fanyi Pu, Jingkang Yang, Chunyuan Li, Ziwei Liu
MIMIC-IT:マルチモーダル・イン・コンテキスト・インストラクションチューニング
要約

大規模言語モデルのインタラクティブな自然言語タスクにおけるゼロショット性能を確保するためには、高品質な指示(instruction)と応答(response)が不可欠である。特に複雑な視覚シーンを含むインタラクティブな視覚言語タスクにおいては、視覚言語モデル(VLM)のチューニングに、量的にも、多様性と創造性に富んだ大量の指示-応答ペアが必須となる。しかし現状では、視覚言語タスクにおける指示-応答ペアの量、多様性、創造性の面で依然として限界があり、インタラクティブVLMの汎化能力に課題を残している。本研究では、280万件のマルチモーダル指示-応答ペアを含むデータセット「MultI-Modal In-Context Instruction Tuning(MIMIC-IT)」を提案する。そのうち220万件は画像および動画から導出されたユニークな指示である。各ペアには、複数モーダルな文脈情報(in-context information)が付随しており、視覚認識、推論、計画能力を強化するための対話的文脈を構成している。本研究で開発した指示-応答収集プロセス「Syphus」は、人間の専門知識とGPTの能力を統合した自動アノテーションパイプラインを用いてスケーラブルに構築された。MIMIC-ITデータセットを用いて、大規模VLM「Otter」を訓練した。視覚言語ベンチマークにおける広範な評価結果から、Otterがマルチモーダル認識、推論、文脈内学習において優れた性能を発揮することが確認された。人間による評価では、ユーザーの意図に効果的に対応していることも明らかになった。本研究では、MIMIC-ITデータセット、指示-応答収集パイプライン、ベンチマーク、およびOtterモデルを公開する。

MIMIC-IT:マルチモーダル・イン・コンテキスト・インストラクションチューニング | 最新論文 | HyperAI超神経