11日前
MMCTAgent:複雑な視覚推論向けマルチモーダル・クリティカル・シンキング・エージェントフレームワーク
Somnath Kumar, Yash Gadhia, Tanuja Ganu, Akshay Nambi

要約
マルチモーダル大規模言語モデル(MLLM)における最近の進展により、視覚と言語を統合するタスクにおける性能が著しく向上している。しかし、詳細なマルチモーダル理解、複雑なタスクの把握、そしてマルチモーダル情報に対する推論といった課題は依然として残っている。本論文では、現在のMLLMが複雑な視覚推論タスクにおいて抱える本質的な限界に対処するための新規なマルチモーダル批判的思考エージェントフレームワーク「MMCTAgent」を提案する。MMCTAgentは人間の認知プロセスおよび批判的思考に着想を得ており、マルチモーダル情報を反復的に分析し、質問を分解し、戦略を計画し、動的に推論を進化させる。さらに、本フレームワークは、視覚ベースの評価者(vision-based critic)を定義する独創的なアプローチを通じて、最終的な答えの検証や自己反省といった批判的思考の要素を統合し、タスク固有の評価基準を特定することで、意思決定能力を強化している。複数の画像および動画理解ベンチマークにおける厳密な評価を通じて、MMCTAgent(評価者を含む・含まないを問わず)が、基礎となるMLLMおよび他のツール拡張型パイプラインを上回ることを実証した。