Command Palette
Search for a command to run...
Zhuoran Zhang Tengyue Wang Xilin Gong Yang Shi Haotian Wang Di Wang Lijie Hu

要約
マルチモーダル大規模言語モデル(MLLM)は、異なるモダリティが矛盾する情報を提供する場合にその矛盾を解消する必要があるが、このプロセスを我々は「モダリティフォローアップ」と呼ぶ。従来の研究では、この行動を粗いデータセットレベルの統計量のみで評価しており、モデルが単一モダリティ推論において持つ信頼度の影響を無視していた。本論文では、モダリティフォローアップを二つの基本的な要因に分解する新たなフレームワークを提案する。これらは、相対的推論不確実性(単一モダリティ予測間のケース固有の信頼度差)と、固有のモダリティ好ましさ(不確実性が均衡した状態におけるモデルの安定したバイアス)である。このフレームワークの妥当性を検証するために、視覚的およびテキスト的入力の推論難易度を系統的に変化させられる制御可能なデータセットを構築した。エントロピーを細粒度の不確実性指標として用いることで、普遍的な法則を明らかにした:モダリティの相対的不確実性が増すほど、そのモダリティに従う確率は単調に減少する。モデルが両モダリティにほぼ同等の確率で従うという相対的難易度のレベル(我々はこれを「バランスポイント」と呼ぶ)において、モデルの固有の好ましさを実用的な指標として捉えることができる。従来のマクロレベルの比率とは異なり、この指標は単一モダリティの能力やデータセットのアーティファクトから分離された、より原理的かつ混同の少ないモダリティバイアスの定量化を可能にする。さらに、層ごとの予測を調査することで、振動の内部メカニズムを解明した。バランスポイント付近の曖昧な領域では、モデルが層を跨いでモダリティの間を揺れ動くことが明らかとなり、外部から観察される不確実性の原因を説明する。以上の知見から、相対的不確実性と固有の好ましさが、モダリティフォローアップを支配する二つの基本原理であることが示され、MLLMが矛盾する情報を処理するメカニズムについて、定量的枠組みと機械的洞察の両方を提供する。