Un benchmark à grande échelle pour la segmentation d'images alimentaires

La segmentation d’images alimentaires constitue une tâche cruciale et indispensable pour le développement d’applications liées à la santé, telles que l’estimation des calories et des nutriments alimentaires. Les modèles existants de segmentation d’images alimentaires peinent à atteindre de bons résultats en raison de deux facteurs principaux : (1) le manque de jeux de données d’images alimentaires de haute qualité, dotés d’étiquettes fines des ingrédients et de masques de localisation au niveau des pixels — les jeux de données actuels présentent soit des étiquettes d’ingrédients trop grossières, soit une taille limitée ; (2) la complexité de l’apparence des aliments rend difficile la localisation et la reconnaissance des ingrédients dans les images, par exemple, les ingrédients peuvent se chevaucher dans une même image, et le même ingrédient peut apparaître de manière très différente dans des images alimentaires distinctes. Dans ce travail, nous proposons un nouveau jeu de données d’images alimentaires, FoodSeg103 (et son extension FoodSeg154), comprenant 9 490 images. Ces images sont annotées avec 154 classes d’ingrédients, chaque image comportant en moyenne 6 étiquettes d’ingrédients et des masques au niveau des pixels. Par ailleurs, nous introduisons une méthode de pré-entraînement multimodale appelée ReLeM, qui équipe explicitement un modèle de segmentation de connaissances alimentaires riches et sémantiques. Dans nos expériences, nous utilisons trois méthodes populaires de segmentation sémantique (basées sur des convolutions dilatées, sur des pyramides de caractéristiques, et sur des Transformers visuels) comme références, et évaluons ces méthodes ainsi que ReLeM sur notre nouveau jeu de données. Nous pensons que FoodSeg103 (et son extension FoodSeg154) ainsi que les modèles pré-entraînés via ReLeM pourront servir de référentiel pour favoriser les travaux futurs sur la compréhension fine des images alimentaires. L’ensemble des jeux de données et des méthodes est rendu public à l’adresse suivante : \url{https://xiongweiwu.github.io/foodseg103.html}.