vor 2 Monaten

Res-VMamba: Feinmaschige visuelle Klassifikation von Lebensmittelkategorien unter Verwendung selektiver Zustandsraummodelle mit tiefem Residuallernen

Chen, Chi-Sheng ; Chen, Guan-Ying ; Zhou, Dong ; Jiang, Di ; Chen, Dai-Shi

Abstract

Die Klassifizierung von Lebensmitteln bildet die Grundlage für die Entwicklung von Aufgaben im Bereich der Bildverarbeitung und spielt eine wichtige Rolle im aufstrebenden Feld der computergestützten Ernährungswissenschaft. Aufgrund der Komplexität von Lebensmitteln, die eine feingranulare Klassifizierung erfordern, konzentriert sich aktuelle wissenschaftliche Forschung hauptsächlich darauf, Faltungsneuronale Netze (CNNs) und/oder Visionstransformer (ViTs) zu modifizieren, um die Kategorisierung von Lebensmittelarten durchzuführen. Um jedoch feingranulare Merkmale zu lernen, benötigt das CNN-Backbone eine zusätzliche strukturelle Gestaltung, während der ViT mit seinem Selbst-Aufmerksamkeitsmodul (Self-Attention Module) eine erhöhte rechnerische Komplexität aufweist. In den letzten Monaten hat ein neues Sequenz-Zustandsraum-Modell (Sequence State Space Model, S4), durch einen Selektionsmechanismus und Berechnungen mittels eines Scans (S6), allgemein als Mamba bezeichnet, eine überlegene Leistung und Recheneffizienz im Vergleich zur Transformer-Architektur gezeigt. Das VMamba-Modell, das den Mamba-Mechanismus in Bilderkanntenaufgaben (wie z.B. Klassifizierung) integriert, stellt derzeit den Stand der Technik (state-of-the-art, SOTA) auf dem ImageNet-Datensatz dar. In dieser Studie führen wir den in akademischen Kreisen unterschätzten Lebensmittel-Datensatz CNFOOD-241 ein und pionieren die Integration eines Residual-Lernframeworks innerhalb des VMamba-Modells, um sowohl globale als auch lokale Zustandsmerkmale des ursprünglichen VMamba-Architekturdesigns gleichzeitig zu nutzen. Die Forschungsergebnisse zeigen, dass VMamba die aktuellen SOTA-Modelle in feingranularer und Lebensmittelklassifizierung übertrifft. Das vorgeschlagene Res-VMamba verbessert die Klassifikationsgenauigkeit ohne vorab trainierte Gewichte auf 79,54 %. Unsere Ergebnisse verdeutlichen, dass unsere vorgeschlagene Methodologie einen neuen Maßstab für SOTA-Leistungen in der Erkennung von Lebensmitteln auf dem CNFOOD-241-Datensatz setzt. Der Quellcode ist auf GitHub abrufbar: https://github.com/ChiShengChen/ResVMamba.