17 天前

即插即用调节器在图像-文本匹配中的应用

Haiwen Diao, Ying Zhang, Wei Liu, Xiang Ruan, Huchuan Lu
即插即用调节器在图像-文本匹配中的应用
摘要

利用细粒度对应关系与视觉-语义对齐在图像-文本匹配任务中展现出巨大潜力。通常,现有方法首先通过跨模态注意力单元捕捉潜在的区域-词交互关系,随后将所有对齐结果进行整合以获得最终的相似性得分。然而,大多数方法采用一次性的前向关联或聚合策略,依赖复杂的网络结构或额外信息,而忽视了网络反馈机制所具备的调节能力。为此,本文提出两种简单却极为有效的调节器,能够高效地编码输出信息,自动实现跨模态表示的上下文建模与聚合。具体而言,本文提出:(i)循环对应调节器(Recurrent Correspondence Regulator, RCR),通过自适应注意力因子逐步增强跨模态注意力单元,以捕获更灵活的跨模态对应关系;(ii)循环聚合调节器(Recurrent Aggregation Regulator, RAR),通过反复调整聚合权重,逐步强化重要对齐关系,同时抑制不重要对齐的影响。值得注意的是,RCR与RAR具有即插即用特性:二者可无缝集成至基于跨模态交互的多种主流框架中,并带来显著性能提升;两者协同作用时,进一步实现性能优化。在MSCOCO与Flickr30K数据集上的大量实验表明,所提方法在多个模型上均实现了显著且一致的R@1指标提升,充分验证了所提方法的通用有效性与良好的泛化能力。代码与预训练模型已开源,地址为:https://github.com/Paranioar/RCAR。