6 个月前

摘要

利用细粒度对应关系与视觉-语义对齐在图像-文本匹配任务中展现出巨大潜力。通常，现有方法首先通过跨模态注意力单元捕捉潜在的区域-词交互关系，随后将所有对齐结果进行整合以获得最终的相似性得分。然而，大多数方法采用一次性的前向关联或聚合策略，依赖复杂的网络结构或额外信息，而忽视了网络反馈机制所具备的调节能力。为此，本文提出两种简单却极为有效的调节器，能够高效地编码输出信息，自动实现跨模态表示的上下文建模与聚合。具体而言，本文提出：（i）循环对应调节器（Recurrent Correspondence Regulator, RCR），通过自适应注意力因子逐步增强跨模态注意力单元，以捕获更灵活的跨模态对应关系；（ii）循环聚合调节器（Recurrent Aggregation Regulator, RAR），通过反复调整聚合权重，逐步强化重要对齐关系，同时抑制不重要对齐的影响。值得注意的是，RCR与RAR具有即插即用特性：二者可无缝集成至基于跨模态交互的多种主流框架中，并带来显著性能提升；两者协同作用时，进一步实现性能优化。在MSCOCO与Flickr30K数据集上的大量实验表明，所提方法在多个模型上均实现了显著且一致的R@1指标提升，充分验证了所提方法的通用有效性与良好的泛化能力。代码与预训练模型已开源，地址为：https://github.com/Paranioar/RCAR。

源 PDF