HyperAI

多模态大语言模型（MLLMs）在不同模态提供矛盾信息时，必须解决这种冲突，这一过程我们称之为“模态跟随”（modality following）。以往的研究仅通过粗粒度的数据集层面统计来衡量该行为，忽略了模型在单模态推理中信心水平的影响。本文提出一种新框架，将模态跟随分解为两个基本因素：相对推理不确定性（即单模态预测之间在具体案例中的置信度差异）和固有模态偏好（当不确定性平衡时，模型表现出的稳定倾向性）。为验证该框架，我们构建了一个可控制的数据集，系统性地调节视觉与文本输入的推理难度。通过使用熵作为细粒度的不确定性度量，我们发现一条普适规律：模态跟随的概率随其相对不确定性的增加而单调下降。在模型倾向于以相近概率跟随两个模态的相对难度水平——我们称之为“平衡点”——这一位置可作为衡量模型固有偏好的实用指标。与传统的宏观层面比率不同，该度量方式更具理论基础，且受干扰更少，能够有效分离模态偏差与单模态能力及数据集固有特征的影响。此外，通过对各层预测的探查，我们揭示了模态振荡的内在机制：在接近平衡点的模糊区域，模型在不同网络层之间在模态间来回摇摆，从而解释了外部观察到的犹豫不决现象。综上，本研究确立了相对不确定性与固有偏好为模态跟随的两大核心原则，不仅提供了量化的分析框架，也深入揭示了多模态大模型在处理信息冲突时的内在机制。

模态冲突时：单模态推理不确定性如何主导MLLMs中的偏好动态

Zhuoran Zhang Tengyue Wang Xilin Gong Yang Shi Haotian Wang Di Wang Lijie Hu

摘要

用 AI 构建 AI

Hyper Newsletters

Command Palette

模态冲突时：单模态推理不确定性如何主导MLLMs中的偏好动态

Zhuoran Zhang Tengyue Wang Xilin Gong Yang Shi Haotian Wang Di Wang Lijie Hu

摘要

用 AI 构建 AI

Hyper Newsletters