3ヶ月前

視覚推論の精緻化のためのイメージ・オブ・シンク・プロンプティング:マルチモーダル大規模言語モデルにおける応用

Qiji Zhou, Ruochen Zhou, Zike Hu, Panzhong Lu, Siyang Gao, Yue Zhang
視覚推論の精緻化のためのイメージ・オブ・シンク・プロンプティング:マルチモーダル大規模言語モデルにおける応用
要約

チェーン・オブ・シンキング(CoT)および関連する根拠に基づく手法の最近の進展により、大規模言語モデル(LLM)の複雑な推論タスクにおける性能が著しく向上している。マルチモーダル大規模言語モデル(MLLM)の進化に伴い、こうしたモデルが複雑なマルチモーダル推論問題に対処する能力を高めることが、重要な研究課題となっている。しかし、CoTにマルチモーダルな根拠を統合する手法については、まだ十分に検討されていない。本研究では、画像に基づく根拠(Image-of-Thought, IoT)プロンプティング手法を提案する。この手法は、MLLMが入力された画像と質問に基づいて、段階的に視覚的根拠を抽出する能力を向上させる。具体的には、IoTプロンプティングは、入力画像と質問に応じて、重要な視覚的情報抽出操作を自動的に設計する。視覚的情報の段階的精緻化プロセスにおいて、複雑な視覚推論問題に対する答えを支持する特定の視覚的根拠を同定する。テキストベースのCoTに加え、IoTは視覚的根拠とテキスト的根拠を同時に活用することで、MLLMが複雑なマルチモーダル情報を理解する支援を行う。IoTプロンプティングは、さまざまなMLLMにおいて、複数の視覚理解タスクにおいてゼロショット視覚推論性能を向上させた。さらに、IoTプロンプティングによって生成される段階的な視覚特徴の説明は、視覚推論プロセスの内実を明確にし、大規模マルチモーダルモデルの認知プロセスを分析する手助けとなる。