HyperAIHyperAI

Command Palette

Search for a command to run...

Ein großskaliger Benchmark für die Segmentierung von Nahrungsmittelbildern

Xiongwei Wu Xin Fu Ying Liu Ee-Peng Lim Steven C.H. Hoi Qianru Sun

Zusammenfassung

Die Segmentierung von Nahrungsmittelfotos ist eine entscheidende und unverzichtbare Aufgabe für die Entwicklung gesundheitsrelevanter Anwendungen wie der Schätzung von Kalorien und Nährstoffen in Lebensmitteln. Bestehende Modelle zur Segmentierung von Nahrungsmittelfotos erzielen derzeit unzureichende Leistungen aus zwei Gründen: (1) Es fehlen hochwertige Datensätze mit fein granulierten Zutatenbezeichnungen und pixelgenauen Masken – die verfügbaren Datensätze weisen entweder grobe Zutatenlabels auf oder sind zu klein; und (2) die komplexe Erscheinung von Nahrungsmitteln erschwert die Lokalisierung und Erkennung von Zutaten in Bildern, beispielsweise können Zutaten innerhalb desselben Bildes überlappend auftreten, und dieselbe Zutat kann in verschiedenen Bildern stark unterschiedlich erscheinen. In dieser Arbeit präsentieren wir einen neuen Datensatz für Nahrungsmittelfotos, namens FoodSeg103 (und dessen Erweiterung FoodSeg154), der 9.490 Bilder umfasst. Diese Bilder wurden mit 154 Zutatenklassen annotiert, wobei jedes Bild im Durchschnitt sechs Zutatenlabels und pixelgenaue Masken enthält. Darüber hinaus stellen wir einen multimodalen Vortrainingsansatz namens ReLeM vor, der ein Segmentierungsmodell gezielt mit reichhaltigem und semantischem Wissen über Lebensmittel ausstattet. In Experimenten nutzen wir drei gängige Methoden zur semantischen Segmentierung (nämlich auf dilatierten Konvolutionen, Feature-Pyramiden und Vision-Transformern basierend) als Baselines und evaluieren diese sowie ReLeM anhand unserer neuen Datensätze. Wir sind überzeugt, dass FoodSeg103 (sowie seine Erweiterung FoodSeg154) sowie die mit ReLeM vortrainierten Modelle als Benchmark dienen können, um zukünftige Forschungsarbeiten zur fein granularen Verarbeitung von Nahrungsmittelfotos zu fördern. Alle Datensätze und Methoden stellen wir öffentlich unter \url{https://xiongweiwu.github.io/foodseg103.html} zur Verfügung.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp