10日前
自己合成データを用いたマルチモーダル基盤モデルの認知能力および説明可能性の向上
Yucheng Shi, Quanzheng Li, Jin Sun, Xiang Li, Ninghao Liu

要約
大規模なマルチモーダルモデル(LMMs)は、多様な視覚タスクにおいて優れた性能を示している。しかし、細粒度の視覚的推論においては依然として課題があり、ドメイン固有の目的を正しく把握できず、予測に対する妥当な説明を提供できない場合が多い。この問題に対処するため、自作のデータを用いてLMMの認知能力および説明可能性を向上させる新しい視覚的リジェクトサンプリングフレームワークを提案する。具体的には、視覚的ファインチューニングには画像、クエリ、およびターゲット回答が必要となる。本手法は、人間が検証可能な視覚的特徴を含む解釈可能な回答を合成することから始める。これらの特徴は、画像の内容と整合性が高いとされる専門家が定義した概念に基づき、慎重に選定される。各ファインチューニングラウンドの後、報酬モデルを用いないフィルタリング機構を適用し、次のラウンドのチューニングに使用する最高品質の解釈可能な回答を選別する。このデータ合成とファインチューニングの反復プロセスにより、モデルが正確かつ論理的な説明を生成する能力が段階的に向上する。実験結果から、本手法が専門的な視覚分類タスクにおける精度と説明可能性の両面で有効であることが示された。