Ein großskaliger Benchmark für die Segmentierung von Nahrungsmittelbildern

Die Segmentierung von Nahrungsmittelfotos ist eine entscheidende und unverzichtbare Aufgabe für die Entwicklung gesundheitsrelevanter Anwendungen wie der Schätzung von Kalorien und Nährstoffen in Lebensmitteln. Bestehende Modelle zur Segmentierung von Nahrungsmittelfotos erzielen derzeit unzureichende Leistungen aus zwei Gründen: (1) Es fehlen hochwertige Datensätze mit fein granulierten Zutatenbezeichnungen und pixelgenauen Masken – die verfügbaren Datensätze weisen entweder grobe Zutatenlabels auf oder sind zu klein; und (2) die komplexe Erscheinung von Nahrungsmitteln erschwert die Lokalisierung und Erkennung von Zutaten in Bildern, beispielsweise können Zutaten innerhalb desselben Bildes überlappend auftreten, und dieselbe Zutat kann in verschiedenen Bildern stark unterschiedlich erscheinen. In dieser Arbeit präsentieren wir einen neuen Datensatz für Nahrungsmittelfotos, namens FoodSeg103 (und dessen Erweiterung FoodSeg154), der 9.490 Bilder umfasst. Diese Bilder wurden mit 154 Zutatenklassen annotiert, wobei jedes Bild im Durchschnitt sechs Zutatenlabels und pixelgenaue Masken enthält. Darüber hinaus stellen wir einen multimodalen Vortrainingsansatz namens ReLeM vor, der ein Segmentierungsmodell gezielt mit reichhaltigem und semantischem Wissen über Lebensmittel ausstattet. In Experimenten nutzen wir drei gängige Methoden zur semantischen Segmentierung (nämlich auf dilatierten Konvolutionen, Feature-Pyramiden und Vision-Transformern basierend) als Baselines und evaluieren diese sowie ReLeM anhand unserer neuen Datensätze. Wir sind überzeugt, dass FoodSeg103 (sowie seine Erweiterung FoodSeg154) sowie die mit ReLeM vortrainierten Modelle als Benchmark dienen können, um zukünftige Forschungsarbeiten zur fein granularen Verarbeitung von Nahrungsmittelfotos zu fördern. Alle Datensätze und Methoden stellen wir öffentlich unter \url{https://xiongweiwu.github.io/foodseg103.html} zur Verfügung.