食品画像セグメンテーションのための大規模ベンチマーク

食品画像セグメンテーションは、食品のカロリーおよび栄養素推定などの健康関連アプリケーションを開発する上で重要な不可欠なタスクである。既存の食品画像セグメンテーションモデルは、以下の2つの要因により性能が不十分である:(1) 細粒度の食材ラベルおよびピクセル単位のマスクを備えた高品質な食品画像データセットが不足していること。既存のデータセットは粗い食材ラベルを備えているか、またはサイズが小さい。(2) 食品の外観が複雑であるため、画像内の食材を正確に局所化・認識することが困難である。例えば、同一画像内で食材が重なり合う場合や、同じ食材が異なる食品画像で顕著に異なる外観を示す場合がある。本研究では、9,490枚の画像を含む新しい食品画像データセット「FoodSeg103」(およびその拡張版であるFoodSeg154)を構築した。これらの画像は154種類の食材クラスにラベル付けされ、1画像あたり平均6つの食材ラベルとピクセル単位のマスクが付与されている。さらに、セグメンテーションモデルに豊富で意味的な食品知識を明示的に付与するためのマルチモーダル事前学習手法「ReLeM」を提案した。実験では、3つの代表的なセマンティックセグメンテーション手法(拡張畳み込みベース、特徴ピラミッドベース、Vision Transformerベース)をベースラインとして用い、本研究で構築した新しいデータセット上でそれらおよびReLeMの性能を評価した。我々は、FoodSeg103(およびその拡張版FoodSeg154)およびReLeMを用いて事前学習されたモデルが、今後の細粒度食品画像理解に関する研究を促進するためのベンチマークとして機能すると確信している。本研究で開発したすべてのデータセットおよび手法は、\url{https://xiongweiwu.github.io/foodseg103.html}にて公開している。