11 天前
搜索前对齐:面向精准跨模态广告搜索的广告图像与文本对齐
Yuanmin Tang, Jing Yu, Keke Gai, Yujing Wang, Yue Hu, Gang Xiong, Qi Wu

摘要
跨模态广告搜索在用户通过自然语言查询在搜索引擎中寻找目标商品时,展示多模态广告(ads)。由于多模态广告能够为查询与广告的匹配提供互补信息,因此在图像与文本中精准对齐广告特定信息的能力,对于实现准确且灵活的广告搜索至关重要。传统研究主要从建模图像与文本之间隐式关联的角度出发,以实现查询-广告匹配,却忽视了对具体产品信息的细粒度对齐,导致搜索性能未能达到最优。在本工作中,我们提出了一种简洁的对齐网络,能够显式地将广告图像中的细粒度视觉部件映射至对应的文本描述,该方法利用视觉与语言空间中共同出现结构的一致性,无需依赖昂贵的标注训练数据即可实现有效对齐。此外,我们设计了一种新颖的跨模态广告搜索模型,将跨模态对齐与查询-广告匹配分为两个独立的处理阶段。通过这种方式,模型能够在同一语言空间中完成多模态输入的匹配,仅使用一半的训练数据便实现了更优的性能表现。在大型商业数据集上的实验表明,我们的模型相比当前最优方法提升了2.57%的性能。除了广告搜索外,本方法还可推广至通用跨模态搜索任务。我们在MSCOCO数据集上开展了一项典型的跨模态检索任务,结果表明该方法在不同场景下均实现了稳定且一致的性能提升,验证了其良好的泛化能力。相关代码已开源,地址为:https://github.com/Pter61/AlignCMSS/