HyperAIHyperAI

Command Palette

Search for a command to run...

Res-VMamba: Feinmaschige visuelle Klassifikation von Lebensmittelkategorien unter Verwendung selektiver Zustandsraummodelle mit tiefem Residuallernen

Chi-Sheng Chen† Guan-Ying Chen‡ Dong Zhou§ Di Jiang Dai-Shi Chen¶

Zusammenfassung

Die Klassifizierung von Lebensmitteln bildet die Grundlage für die Entwicklung von Aufgaben im Bereich der Bildverarbeitung und spielt eine wichtige Rolle im aufstrebenden Feld der computergestützten Ernährungswissenschaft. Aufgrund der Komplexität von Lebensmitteln, die eine feingranulare Klassifizierung erfordern, konzentriert sich aktuelle wissenschaftliche Forschung hauptsächlich darauf, Faltungsneuronale Netze (CNNs) und/oder Visionstransformer (ViTs) zu modifizieren, um die Kategorisierung von Lebensmittelarten durchzuführen. Um jedoch feingranulare Merkmale zu lernen, benötigt das CNN-Backbone eine zusätzliche strukturelle Gestaltung, während der ViT mit seinem Selbst-Aufmerksamkeitsmodul (Self-Attention Module) eine erhöhte rechnerische Komplexität aufweist. In den letzten Monaten hat ein neues Sequenz-Zustandsraum-Modell (Sequence State Space Model, S4), durch einen Selektionsmechanismus und Berechnungen mittels eines Scans (S6), allgemein als Mamba bezeichnet, eine überlegene Leistung und Recheneffizienz im Vergleich zur Transformer-Architektur gezeigt. Das VMamba-Modell, das den Mamba-Mechanismus in Bilderkanntenaufgaben (wie z.B. Klassifizierung) integriert, stellt derzeit den Stand der Technik (state-of-the-art, SOTA) auf dem ImageNet-Datensatz dar. In dieser Studie führen wir den in akademischen Kreisen unterschätzten Lebensmittel-Datensatz CNFOOD-241 ein und pionieren die Integration eines Residual-Lernframeworks innerhalb des VMamba-Modells, um sowohl globale als auch lokale Zustandsmerkmale des ursprünglichen VMamba-Architekturdesigns gleichzeitig zu nutzen. Die Forschungsergebnisse zeigen, dass VMamba die aktuellen SOTA-Modelle in feingranularer und Lebensmittelklassifizierung übertrifft. Das vorgeschlagene Res-VMamba verbessert die Klassifikationsgenauigkeit ohne vorab trainierte Gewichte auf 79,54 %. Unsere Ergebnisse verdeutlichen, dass unsere vorgeschlagene Methodologie einen neuen Maßstab für SOTA-Leistungen in der Erkennung von Lebensmitteln auf dem CNFOOD-241-Datensatz setzt. Der Quellcode ist auf GitHub abrufbar: https://github.com/ChiShengChen/ResVMamba.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp