16 天前

HADA:一种基于图的图文检索融合框架

Manh-Duy Nguyen, Binh T. Nguyen, Cathal Gurrin
HADA:一种基于图的图文检索融合框架
摘要

针对视觉与语言任务,尤其是图像-文本检索任务,已有大量模型被提出。目前所有顶尖(SOTA)模型均包含数亿参数,并在大规模外部数据集上进行预训练,该策略已被证实能显著提升整体性能。然而,从零开始设计一种具有新颖架构的新模型,并在海量数据上使用大量GPU进行充分训练,以超越现有众多已公开可用的SOTA模型,实属困难。本文提出了一种轻量级的图结构框架——HADA(Hierarchical Adaptive Dual Attention),无需从头构建模型,而是通过融合多个预训练模型来实现更优性能。具体而言,我们构建了一个图结构,其中节点代表从预训练模型中提取的特征,节点之间的边则表示特征间的关联关系。该图结构用于捕获并融合各预训练模型之间的互补信息。随后,引入图神经网络(GNN)对节点间连接关系进行动态更新,从而生成图像与文本的代表性嵌入向量。最后,采用余弦相似度计算实现图像与文本之间的匹配,确保推理过程高效、延迟低。实验结果表明,尽管HADA的可训练参数极少,但在Flickr30k数据集上,其评估指标相较基线模型提升了超过3.6%。值得注意的是,该模型无需在任何外部数据集上进行训练,且因参数量极小,仅需1块GPU即可完成训练,显著降低了计算资源需求。相关源代码已开源,地址为:https://github.com/m2man/HADA。

HADA:一种基于图的图文检索融合框架 | 最新论文 | HyperAI超神经