16 天前

HADA：一种基于图的图文检索融合框架

Manh-Duy Nguyen, Binh T. Nguyen, Cathal Gurrin

摘要

针对视觉与语言任务，尤其是图像-文本检索任务，已有大量模型被提出。目前所有顶尖（SOTA）模型均包含数亿参数，并在大规模外部数据集上进行预训练，该策略已被证实能显著提升整体性能。然而，从零开始设计一种具有新颖架构的新模型，并在海量数据上使用大量GPU进行充分训练，以超越现有众多已公开可用的SOTA模型，实属困难。本文提出了一种轻量级的图结构框架——HADA（Hierarchical Adaptive Dual Attention），无需从头构建模型，而是通过融合多个预训练模型来实现更优性能。具体而言，我们构建了一个图结构，其中节点代表从预训练模型中提取的特征，节点之间的边则表示特征间的关联关系。该图结构用于捕获并融合各预训练模型之间的互补信息。随后，引入图神经网络（GNN）对节点间连接关系进行动态更新，从而生成图像与文本的代表性嵌入向量。最后，采用余弦相似度计算实现图像与文本之间的匹配，确保推理过程高效、延迟低。实验结果表明，尽管HADA的可训练参数极少，但在Flickr30k数据集上，其评估指标相较基线模型提升了超过3.6%。值得注意的是，该模型无需在任何外部数据集上进行训练，且因参数量极小，仅需1块GPU即可完成训练，显著降低了计算资源需求。相关源代码已开源，地址为：https://github.com/m2man/HADA。