Command Palette

Search for a command to run...

20 天前

模态冲突时:单模态推理不确定性如何主导MLLMs中的偏好动态

Zhuoran Zhang Tengyue Wang Xilin Gong Yang Shi Haotian Wang Di Wang Lijie Hu

模态冲突时:单模态推理不确定性如何主导MLLMs中的偏好动态

摘要

多模态大语言模型(MLLMs)在不同模态提供矛盾信息时,必须解决这种冲突,这一过程我们称之为“模态跟随”(modality following)。以往的研究仅通过粗粒度的数据集层面统计来衡量该行为,忽略了模型在单模态推理中信心水平的影响。本文提出一种新框架,将模态跟随分解为两个基本因素:相对推理不确定性(即单模态预测之间在具体案例中的置信度差异)和固有模态偏好(当不确定性平衡时,模型表现出的稳定倾向性)。为验证该框架,我们构建了一个可控制的数据集,系统性地调节视觉与文本输入的推理难度。通过使用熵作为细粒度的不确定性度量,我们发现一条普适规律:模态跟随的概率随其相对不确定性的增加而单调下降。在模型倾向于以相近概率跟随两个模态的相对难度水平——我们称之为“平衡点”——这一位置可作为衡量模型固有偏好的实用指标。与传统的宏观层面比率不同,该度量方式更具理论基础,且受干扰更少,能够有效分离模态偏差与单模态能力及数据集固有特征的影响。此外,通过对各层预测的探查,我们揭示了模态振荡的内在机制:在接近平衡点的模糊区域,模型在不同网络层之间在模态间来回摇摆,从而解释了外部观察到的犹豫不决现象。综上,本研究确立了相对不确定性与固有偏好为模态跟随的两大核心原则,不仅提供了量化的分析框架,也深入揭示了多模态大模型在处理信息冲突时的内在机制。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
模态冲突时:单模态推理不确定性如何主导MLLMs中的偏好动态 | 论文 | HyperAI超神经