2 个月前

视觉与结构化语言预训练在跨模态食品检索中的应用

Shukor, Mustafa ; Thome, Nicolas ; Cord, Matthieu
视觉与结构化语言预训练在跨模态食品检索中的应用
摘要

视觉-语言预训练(VLP)和基础模型一直是实现通用基准测试最先进性能的首选方法。然而,对于更复杂的视觉-语言任务,如烹饪应用,这些强大的技术在处理结构化输入数据方面仍鲜有研究。在这项工作中,我们提出利用这些技术来解决基于结构化文本的计算烹饪任务。我们的策略被称为VLPCook,首先将现有的图像-文本对转换为图像和结构化文本对。这使得我们可以在适应了结果数据集结构化数据的VLP目标上预训练VLPCook模型,然后在下游计算烹饪任务上对其进行微调。在微调过程中,我们还增强了视觉编码器,利用预训练的基础模型(例如CLIP)提供局部和全局文本上下文。VLPCook在大规模Recipe1M数据集上的跨模态食品检索任务中显著超越了当前的最先进水平(Recall@1绝对提升+3.3)。我们在VLP上进行了进一步的实验以验证其重要性,特别是在Recipe1M+数据集上。最后,我们在其他任务(如食品识别)和其他包含结构化文本的领域(如医疗领域的ROCO数据集)上验证了该方法的泛化能力。代码可在此处获取:https://github.com/mshukor/VLPCook

视觉与结构化语言预训练在跨模态食品检索中的应用 | 最新论文 | HyperAI超神经