HyperAIHyperAI

Command Palette

Search for a command to run...

MIMIC-IT:マルチモーダル・イン・コンテキスト・インストラクションチューニング

Bo Li Yuanhan Zhang Liangyu Chen Jinghao Wang Fanyi Pu Jingkang Yang Chunyuan Li Ziwei Liu

概要

大規模言語モデルのインタラクティブな自然言語タスクにおけるゼロショット性能を確保するためには、高品質な指示(instruction)と応答(response)が不可欠である。特に複雑な視覚シーンを含むインタラクティブな視覚言語タスクにおいては、視覚言語モデル(VLM)のチューニングに、量的にも、多様性と創造性に富んだ大量の指示-応答ペアが必須となる。しかし現状では、視覚言語タスクにおける指示-応答ペアの量、多様性、創造性の面で依然として限界があり、インタラクティブVLMの汎化能力に課題を残している。本研究では、280万件のマルチモーダル指示-応答ペアを含むデータセット「MultI-Modal In-Context Instruction Tuning(MIMIC-IT)」を提案する。そのうち220万件は画像および動画から導出されたユニークな指示である。各ペアには、複数モーダルな文脈情報(in-context information)が付随しており、視覚認識、推論、計画能力を強化するための対話的文脈を構成している。本研究で開発した指示-応答収集プロセス「Syphus」は、人間の専門知識とGPTの能力を統合した自動アノテーションパイプラインを用いてスケーラブルに構築された。MIMIC-ITデータセットを用いて、大規模VLM「Otter」を訓練した。視覚言語ベンチマークにおける広範な評価結果から、Otterがマルチモーダル認識、推論、文脈内学習において優れた性能を発揮することが確認された。人間による評価では、ユーザーの意図に効果的に対応していることも明らかになった。本研究では、MIMIC-ITデータセット、指示-応答収集パイプライン、ベンチマーク、およびOtterモデルを公開する。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています