HyperAIHyperAI
il y a 2 mois

Res-VMamba : Classification visuelle fine-grainée des catégories alimentaires à l'aide de modèles d'espace d'état sélectifs avec apprentissage profond par résidus

Chen, Chi-Sheng ; Chen, Guan-Ying ; Zhou, Dong ; Jiang, Di ; Chen, Dai-Shi
Res-VMamba : Classification visuelle fine-grainée des catégories alimentaires à l'aide de modèles d'espace d'état sélectifs avec apprentissage profond par résidus
Résumé

La classification des aliments est la base pour le développement de tâches de vision par ordinateur liées à l'alimentation et joue un rôle clé dans le domaine en pleine expansion de la nutrition computationnelle. En raison de la complexité des aliments nécessitant une classification fine, les recherches récentes se concentrent principalement sur la modification des Réseaux Neuronaux Convolutifs (CNN) et/ou des Transformers Visuels (ViT) pour effectuer la classification des catégories alimentaires. Cependant, pour apprendre des caractéristiques fines, l'architecture CNN nécessite un design structurel supplémentaire, tandis que le ViT, qui contient un module d'auto-attention, présente une complexité algorithmique accrue. Au cours des derniers mois, un nouveau modèle d'Espace d'États Séquentiel (S4), grâce à un mécanisme de Sélection et à des calculs effectués par une Balayage (S6), couramment appelé Mamba, a montré des performances supérieures et une efficacité algorithmique comparée à l'architecture Transformer. Le modèle VMamba, qui intègre le mécanisme Mamba aux tâches d'image (comme la classification), établit actuellement l'état de l'art (SOTA) sur le jeu de données ImageNet. Dans cette recherche, nous présentons un jeu de données alimentaire sous-estimé académiquement, CNFOOD-241, et nous ouvrons la voie à l'intégration d'un cadre d'apprentissage résiduel au sein du modèle VMamba afin d'exploiter simultanément les caractéristiques d'état globales et locales inhérentes au design architectural original du VMamba. Les résultats de notre recherche montrent que VMamba dépasse les modèles SOTA actuels en matière de classification fine et alimentaire. La proposition du Res-VMamba améliore encore la précision de classification à 79,54 % sans poids préentraînés. Nos conclusions démontrent que notre méthodologie proposée établit une nouvelle référence pour les performances SOTA en reconnaissance alimentaire sur le jeu de données CNFOOD-241. Le code peut être obtenu sur GitHub : https://github.com/ChiShengChen/ResVMamba.