3ヶ月前

MMICL:マルチモーダル・インコンテキスト学習による視覚言語モデルの強化

Haozhe Zhao, Zefan Cai, Shuzheng Si, Xiaojian Ma, Kaikai An, Liang Chen, Zixuan Liu, Sheng Wang, Wenjuan Han, Baobao Chang
MMICL:マルチモーダル・インコンテキスト学習による視覚言語モデルの強化
要約

ディープラーニングの再興以来、大規模言語モデル(LLM)によって強化された視覚・言語モデル(VLM)は急激に人気を博している。しかし、LLMはコンテキスト学習(in-context learning)を活用することで広範な背景知識やタスク情報を活用できる一方、多数の画像を含む複雑なマルチモーダルプロンプトを理解する能力に欠けるため、多くのVLMは下流の視覚・言語タスクにおいて効果が限定的である。本論文では、この課題を克服するために以下の3点を提案する。1)マルチモーダルコンテキスト学習(MMICL)を備えた視覚・言語モデルを導入し、マルチモーダル入力を効率的に処理できる新しいアプローチを提供する。2)VLMのコンテキスト学習能力を拡張するための新たなコンテキスト設計を提案する。3)複雑なマルチモーダルプロンプトの理解能力を向上させるために、マルチモーダルコンテキスト学習(MIC)データセットを構築する。実験の結果、MMICLはMMEやMMBenchを含む複雑なベンチマークを含む、広範な一般視覚・言語タスクにおいて、新たなSOTA(state-of-the-art)のゼロショット性能を達成したことが確認された。分析により、MMICLが複雑なマルチモーダルプロンプトの理解という課題に効果的に対応し、顕著なコンテキスト学習能力を発揮することが明らかになった。さらに、MMICLがVLMに一般的に見られる言語バイアスを有意に軽減することも観察された。これは、大量のテキストコンテキストに直面した際に幻覚(hallucination)を引き起こす要因となる問題の改善を示している。本研究のコード、データセット、データセットツール、およびモデルは、https://github.com/PKUnlp-icler/MIC にて公開されている。