2 个月前

BLOCK:用于视觉问答和视觉关系检测的双线性超对角融合

Hedi Ben-younes; Rémi Cadene; Nicolas Thome; Matthieu Cord
BLOCK:用于视觉问答和视觉关系检测的双线性超对角融合
摘要

多模态表示学习在深度学习领域中正逐渐受到越来越多的关注。尽管双线性模型为寻找模态之间的细微组合提供了一个有趣的框架,但其参数数量随着输入维度的增加而呈二次增长,这使得它们在经典深度学习流水线中的实际应用变得具有挑战性。本文介绍了BLOCK,一种基于块超对角张量分解的新多模态融合方法。该方法利用了块项秩的概念,这是已经用于多模态融合的张量秩和模式秩的推广。它允许定义新的优化方法来平衡融合模型的表达能力和复杂度,并且能够在保持强大的单模态表示的同时,表示出非常精细的模态间交互。我们通过将BLOCK应用于两个具有挑战性的任务——视觉问答(VQA)和视觉关系检测(VRD),展示了我们融合模型的实际价值,在这些任务中设计了端到端可学习的架构以表示相关模态间的交互。通过广泛的实验,我们证明了BLOCK在VQA和VRD任务上与现有最先进的多模态融合模型相比具有竞争力。我们的代码可在https://github.com/Cadene/block.bootstrap.pytorch 获取。

BLOCK:用于视觉问答和视觉关系检测的双线性超对角融合 | 最新论文 | HyperAI超神经