Res-VMamba: 深層残差学習を用いた選択的状態空間モデルによる細かい食品カテゴリの視覚的分類

食品分類は、食品ビジョンタスクの開発の基礎であり、計算栄養学という急速に発展している分野において重要な役割を果たしています。食品の複雑さから細かい分類が求められることもあり、最近の学術研究では主に畳み込みニューラルネットワーク(CNN)と/またはビジョントランスフォーマー(ViT)を改良して食品カテゴリーの分類を行っています。しかし、細かい特徴を学習するためには、CNNの基本構造に追加的な設計が必要となり、一方でViTは自己注意モジュールを含むため計算量が増大します。ここ数ヶ月で、新しいシーケンス状態空間(S4)モデルが選択メカニズムとスキャン(S6)による計算を組み合わせて「マンバ」と俗に呼ばれるようになりました。このモデルは、トランスフォーマー構造よりも優れた性能と計算効率を示しており、VMambaモデルは画像タスク(例えば分類)にマンバメカニズムを取り入れて現在ImageNetデータセットで最先端(SOTA)の成果を達成しています。本研究では、学術的に評価が低められているCNFOOD-241という食品データセットを紹介し、VMambaモデル内に残差学習フレームワークを取り込むことで元々のVMambaアーキテクチャ設計に内在する全体的および局所的な状態特徴を同時に活用する先駆的な統合方法を開発しました。研究結果は、VMambaが現在のSOTAモデルを超えて細かい分類や食品分類において優れた性能を示すことを示しています。提案したRes-VMambaは事前学習済み重みを使用せずに79.54%の分類精度を達成し、さらにその性能を向上させています。我々の研究成果は、CNFOOD-241データセットにおける食品認識に関するSOTA性能に対する新たな基準となることを明確に示しています。コードはGitHubから入手可能です: https://github.com/ChiShengChen/ResVMamba.