FoodSAM : Segmentations de tout type d'aliments

Dans cet article, nous explorons la capacité zero-shot du modèle Segment Anything (SAM) pour la segmentation d’images alimentaires. Afin de remédier au manque d’informations spécifiques aux classes dans les masques générés par SAM, nous proposons un cadre novateur, nommé FoodSAM. Cette approche innovante intègre le masque sémantique grossier aux masques générés par SAM afin d’améliorer la qualité de la segmentation sémantique. Par ailleurs, nous considérons que les ingrédients présents dans les aliments peuvent être traités comme des entités indépendantes, ce qui nous a motivés à réaliser une segmentation d’instances sur les images alimentaires. En outre, FoodSAM étend sa capacité zero-shot à inclure la segmentation panoptique en intégrant un détecteur d’objets, permettant ainsi à FoodSAM de capturer efficacement les informations relatives aux objets non alimentaires. Inspirés par les récents succès de la segmentation pilotée par des prompts, nous étendons également FoodSAM à la segmentation pilotée par des prompts, en supportant diverses variantes de prompts. En conséquence, FoodSAM émerge comme une solution globale capable de segmenter les aliments à plusieurs niveaux de granularité. Notamment, ce cadre pionnier constitue le premier travail à réaliser simultanément la segmentation d’instances, la segmentation panoptique et la segmentation pilotée par des prompts sur des images alimentaires. Des expériences étendues démontrent la faisabilité et les performances remarquables de FoodSAM, validant ainsi le potentiel du SAM en tant qu’outil emblématique et influent dans le domaine de la segmentation d’images alimentaires. Nous mettons à disposition notre code à l’adresse suivante : https://github.com/jamesjg/FoodSAM.