8 个月前

摘要

视觉-语言预训练（VLP）和基础模型一直是实现通用基准测试最先进性能的首选方法。然而，对于更复杂的视觉-语言任务，如烹饪应用，这些强大的技术在处理结构化输入数据方面仍鲜有研究。在这项工作中，我们提出利用这些技术来解决基于结构化文本的计算烹饪任务。我们的策略被称为VLPCook，首先将现有的图像-文本对转换为图像和结构化文本对。这使得我们可以在适应了结果数据集结构化数据的VLP目标上预训练VLPCook模型，然后在下游计算烹饪任务上对其进行微调。在微调过程中，我们还增强了视觉编码器，利用预训练的基础模型（例如CLIP）提供局部和全局文本上下文。VLPCook在大规模Recipe1M数据集上的跨模态食品检索任务中显著超越了当前的最先进水平（Recall@1绝对提升+3.3）。我们在VLP上进行了进一步的实验以验证其重要性，特别是在Recipe1M+数据集上。最后，我们在其他任务（如食品识别）和其他包含结构化文本的领域（如医疗领域的ROCO数据集）上验证了该方法的泛化能力。代码可在此处获取：https://github.com/mshukor/VLPCook

源 PDF 查看代码