15 天前
基于分层Transformer与自监督学习的跨模态食谱检索重构
Amaia Salvador, Erhan Gundogdu, Loris Bazzani, Michael Donoser

摘要
跨模态食谱检索近年来受到广泛关注,这主要源于食物在人们日常生活中的重要性,以及大量数字化食谱和食品图像数据的可获取性,为机器学习模型的训练提供了丰富资源。在本研究中,我们重新审视了现有的跨模态食谱检索方法,并提出了一种基于成熟且高性能的文本与图像编码器的简化端到端模型。我们引入了一种分层食谱Transformer,能够有选择性地编码食谱的各个组成部分(如标题、食材和步骤)。此外,我们设计了一种基于食谱各组成部分配对的自监督损失函数,该函数能够捕捉食谱内部的语义关联,支持使用图像-食谱对以及仅含食谱的样本进行训练。我们通过全面的分析与消融实验验证了模型设计的有效性。实验结果表明,所提出的方法在Recipe1M数据集上的跨模态食谱检索任务中达到了当前最优性能。相关代码与模型已公开发布。