
摘要
在本文中,我们提出了一种新方法——VinVL+L,该方法通过引入位置信息,对当前最先进的视觉与语言(Vision and Language, VL)模型VinVL的视觉表征(即目标标签和区域特征)进行了增强。为验证此类元数据对VL模型的重要性,我们开展了以下三方面工作:(i)在Places365数据集上训练了一个Swin-B模型,获得了额外的视觉特征与标签特征集,并已公开发布,以支持结果的可复现性及后续研究;(ii)对现有VinVL模型架构进行了更新,集成上述新特征集;(iii)提供了定性和定量的综合评估。仅引入二值化位置元数据,VinVL+L方法在视觉问答(Visual Question Answering, VQA)任务上即实现了对当前最先进模型VinVL的增量性能提升。在GQA数据集上,VinVL+L取得了64.85%的准确率,准确率相对原模型提升了+0.32%,且通过近似随机化检验(Approximate Randomization)验证了新特征表示的统计显著性。代码及新生成的特征集已开源,可通过以下链接获取:https://github.com/vyskocj/VinVL-L。