6 个月前

摘要

食物图像分割是开发健康相关应用（如估算食物热量与营养成分）中一项关键且不可或缺的任务。现有的食物图像分割模型性能不佳，主要受制于两个原因：其一，缺乏高质量、具备细粒度食材标签和像素级定位掩码的食物图像数据集——现有数据集要么食材标签粗略，要么规模较小；其二，食物外观复杂，导致在图像中准确定位与识别食材极具挑战性，例如，同一图像中不同食材可能相互重叠，而同一食材在不同图像中可能呈现显著差异的视觉形态。为此，本文构建了一个全新的食物图像数据集 FoodSeg103（及其扩展版本 FoodSeg154），包含共计 9,490 张图像。所有图像均标注了 154 种食材类别，平均每张图像包含 6 个食材标签及对应的像素级掩码。此外，我们提出一种多模态预训练方法 ReLeM，该方法显式地为分割模型注入丰富的语义食物知识。在实验中，我们选取三种主流的语义分割方法（基于空洞卷积、基于特征金字塔、基于视觉 Transformer）作为基线模型，并在新构建的数据集上评估这些基线模型以及 ReLeM 的性能。我们相信，FoodSeg103（及其扩展版本 FoodSeg154）以及基于 ReLeM 训练的预训练模型，可作为细粒度食物图像理解领域的重要基准，推动后续研究的发展。所有数据集与方法均已公开，访问地址为：\url{https://xiongweiwu.github.io/foodseg103.html}。

源 PDF