Command Palette
Search for a command to run...
Zhuoran Zhang Tengyue Wang Xilin Gong Yang Shi Haotian Wang Di Wang Lijie Hu

摘要
多模态大语言模型(MLLMs)在不同模态提供矛盾信息时,必须解决这种冲突,这一过程我们称之为“模态跟随”(modality following)。以往的研究仅通过粗粒度的数据集层面统计来衡量该行为,忽略了模型在单模态推理中信心水平的影响。本文提出一种新框架,将模态跟随分解为两个基本因素:相对推理不确定性(即单模态预测之间在具体案例中的置信度差异)和固有模态偏好(当不确定性平衡时,模型表现出的稳定倾向性)。为验证该框架,我们构建了一个可控制的数据集,系统性地调节视觉与文本输入的推理难度。通过使用熵作为细粒度的不确定性度量,我们发现一条普适规律:模态跟随的概率随其相对不确定性的增加而单调下降。在模型倾向于以相近概率跟随两个模态的相对难度水平——我们称之为“平衡点”——这一位置可作为衡量模型固有偏好的实用指标。与传统的宏观层面比率不同,该度量方式更具理论基础,且受干扰更少,能够有效分离模态偏差与单模态能力及数据集固有特征的影响。此外,通过对各层预测的探查,我们揭示了模态振荡的内在机制:在接近平衡点的模糊区域,模型在不同网络层之间在模态间来回摇摆,从而解释了外部观察到的犹豫不决现象。综上,本研究确立了相对不确定性与固有偏好为模态跟随的两大核心原则,不仅提供了量化的分析框架,也深入揭示了多模态大模型在处理信息冲突时的内在机制。