
摘要
食物图像分割是开发健康相关应用(如估算食物热量与营养成分)中一项关键且不可或缺的任务。现有的食物图像分割模型性能不佳,主要受制于两个原因:其一,缺乏高质量、具备细粒度食材标签和像素级定位掩码的食物图像数据集——现有数据集要么食材标签粗略,要么规模较小;其二,食物外观复杂,导致在图像中准确定位与识别食材极具挑战性,例如,同一图像中不同食材可能相互重叠,而同一食材在不同图像中可能呈现显著差异的视觉形态。为此,本文构建了一个全新的食物图像数据集 FoodSeg103(及其扩展版本 FoodSeg154),包含共计 9,490 张图像。所有图像均标注了 154 种食材类别,平均每张图像包含 6 个食材标签及对应的像素级掩码。此外,我们提出一种多模态预训练方法 ReLeM,该方法显式地为分割模型注入丰富的语义食物知识。在实验中,我们选取三种主流的语义分割方法(基于空洞卷积、基于特征金字塔、基于视觉 Transformer)作为基线模型,并在新构建的数据集上评估这些基线模型以及 ReLeM 的性能。我们相信,FoodSeg103(及其扩展版本 FoodSeg154)以及基于 ReLeM 训练的预训练模型,可作为细粒度食物图像理解领域的重要基准,推动后续研究的发展。所有数据集与方法均已公开,访问地址为:\url{https://xiongweiwu.github.io/foodseg103.html}。