SeeDS: Semantischer trennbarer Diffusions-Synthesizer für zero-shot Erkennung von Lebensmitteln

Die Erkennung von Lebensmitteln wird zu einer grundlegenden Aufgabe im Bereich der Lebensmittelverarbeitung und unterstützt verschiedene Multimediaanwendungen, darunter Lebensmittelempfehlungen und die Überwachung der Ernährung. Um realistische Szenarien zu bewältigen, muss die Lebensmittelerkennung neue Lebensmittelobjekte lokalisieren und erkennen, die während des Trainings nicht gesehen wurden, was Zero-Shot-Detektion (ZSD) erfordert. Die Komplexität semantischer Attribute und die Intra-Klassen-Vielfalt der Merkmale stellen jedoch Herausforderungen für ZSD-Methoden dar, insbesondere bei der Unterscheidung fein abgestufter Lebensmittelklassen. Um dies anzugehen, schlagen wir den Rahmenwerk Semantic Separable Diffusion Synthesizer (SeeDS) für Zero-Shot-Food-Detection (ZSFD) vor. SeeDS besteht aus zwei Modulen: einem semantisch separierbaren Synthesemodul (Semantic Separable Synthesizing Module, S$^3$M) und einem Regionen-Merkmals-Denoising-Diffusionsmodell (Region Feature Denoising Diffusion Model, RFDDM). Das S$^3$M lernt die entkoppelte semantische Darstellung komplexer Lebensmittelattribute aus Zutaten und Küchenstilen und synthetisiert durch erweiterte semantische Informationen diskriminierende Lebensmittelmerkmale. Das RFDDM nutzt ein neues Diffusionsmodell zur Generierung diversifizierter Regionenmerkmale und verbessert ZSFD durch fein abgestufte synthetisierte Merkmale. Ausführliche Experimente zeigen die Stand-of-the-Art-Leistung unserer vorgeschlagenen Methode auf zwei Lebensmitteldatensätzen, ZSFooD und UECFOOD-256. Darüber hinaus behält SeeDS auch seine Effektivität auf allgemeinen ZSD-Datensätzen wie PASCAL VOC und MS COCO. Der Quellcode und der Datensatz sind unter https://github.com/LanceZPF/SeeDS verfügbar.