8 个月前

摘要

人类感知将多种模态（如视觉、听觉和语言）整合为对周围现实的统一理解。尽管最近的多模态模型通过对比学习在对齐模态对方面取得了显著进展，但这些解决方案在扩展到多个模态时并不适用。这些模型通常将每个模态与指定的锚点对齐，而没有确保所有模态之间的相互对齐，从而导致在需要联合理解多个模态的任务中表现不佳。本文中，我们从结构上重新思考了传统的多模态学习中的成对方法，并提出了一种新颖的格拉姆表示对齐度量（Gramian Representation Alignment Measure, GRAM），以克服上述限制。GRAM 通过最小化由模态向量张成的 $k$ 维平行多面体的格拉姆体积，直接在高维嵌入空间中学习并对齐 $n$ 个模态，从而同时确保所有模态的几何对齐。GRAM 可以替代任何下游方法中的余弦相似度，适用于 2 到 $n$ 个模态，并且相对于之前的相似度度量提供了更有意义的对齐。基于 GRAM 的新型对比损失函数增强了多模态模型在高维嵌入空间中的对齐效果，从而在视频-音频-文本检索和音频-视频分类等下游任务中实现了新的最先进性能。项目页面、代码和预训练模型可在 https://ispamm.github.io/GRAM/ 获取。