SeeDS : Synthétiseur de Diffusion Sémantique Séparable pour la Détection de Nourriture en Zero-shot

La détection des aliments est devenue une tâche fondamentale en informatique alimentaire, soutenant diverses applications multimédia, notamment les recommandations d'aliments et le suivi diététique. Pour faire face aux scénarios du monde réel, la détection des aliments doit localiser et reconnaître de nouveaux objets alimentaires qui n'ont pas été vus lors de l'entraînement, ce qui nécessite une détection à zéro coup d'œil (Zero-Shot Detection, ZSD). Cependant, la complexité des attributs sémantiques et la diversité des caractéristiques intra-classe posent des défis pour les méthodes ZSD dans la distinction des classes d'aliments fines. Pour résoudre ce problème, nous proposons le cadre Semantic Separable Diffusion Synthesizer (SeeDS) pour la détection à zéro coup d'œil des aliments (Zero-Shot Food Detection, ZSFD). SeeDS se compose de deux modules : un module de synthèse sémantique séparable (Semantic Separable Synthesizing Module, S$^3$M) et un modèle de diffusion de débruitage des caractéristiques régionales (Region Feature Denoising Diffusion Model, RFDDM). Le S$^3$M apprend une représentation sémantique dissociée pour les attributs complexes des aliments à partir des ingrédients et des cuisines, et synthétise des caractéristiques alimentaires discriminantes grâce à une information sémantique améliorée. Le RFDDM utilise un nouveau modèle de diffusion pour générer des caractéristiques régionales diversifiées et renforce la ZSFD via des caractéristiques synthétiques fines. De nombreuses expériences montrent que notre méthode proposée atteint les performances les plus avancées en ZSFD sur deux jeux de données alimentaires, ZSFooD et UECFOOD-256. De plus, SeeDS maintient son efficacité sur les jeux de données généraux ZSD, PASCAL VOC et MS COCO. Le code source et le jeu de données sont disponibles à l'adresse suivante : https://github.com/LanceZPF/SeeDS.