17 天前

多模态分类器中的偏见消除:通过最大化函数熵进行正则化

Itai Gat, Idan Schwartz, Alexander Schwing, Tamir Hazan
多模态分类器中的偏见消除:通过最大化函数熵进行正则化
摘要

近年来的许多数据集包含多种不同的数据模态,例如在视觉问答(Visual Question Answering, VQA)任务中同时包含图像、问题和答案数据。在对这些多模态数据集训练深度神经网络分类器时,不同模态在不同尺度上被利用,即某些模态相较于其他模态更容易对分类结果产生贡献。这种现象是次优的,因为分类器本质上对部分模态存在固有偏倚。为缓解这一缺陷,我们提出一种基于函数熵(functional entropy)的新型正则化项。直观上,该正则化项旨在平衡各模态对最终分类结果的贡献。然而,基于函数熵的正则化具有挑战性。为此,我们提出一种基于对数-Sobolev不等式(log-Sobolev inequality)的方法,该方法通过函数-Fisher信息(functional-Fisher information)对函数熵进行上界约束。直观上,该方法能够最大化各模态所贡献的信息量。在两个具有挑战性的多模态数据集VQA-CPv2和SocialIQ上,我们的方法取得了当前最优的性能,同时更均匀地利用了各类模态。此外,我们在Color MNIST数据集上也验证了该方法的有效性。