2달 전

Res-VMamba: 선택적 상태 공간 모델과 깊은 잔여 학습을 사용한 세부 식품 카테고리 시각 분류

Chen, Chi-Sheng ; Chen, Guan-Ying ; Zhou, Dong ; Jiang, Di ; Chen, Dai-Shi
Res-VMamba: 선택적 상태 공간 모델과 깊은 잔여 학습을 사용한 세부 식품 카테고리 시각 분류
초록

식품 분류는 식품 비전 작업 개발의 기초가 되며, 계산 영양학이라는 새로운 분야에서 중요한 역할을 합니다. 식품의 복잡성이 세부적인 분류를 요구하기 때문에, 최근 학술 연구에서는 주로 컨벌루션 신경망(CNNs)과/또는 비전 트랜스포머(ViTs)를 수정하여 식품 카테고리 분류를 수행하고 있습니다. 그러나 세부적인 특징을 학습하기 위해서는 CNN 백본에 추가적인 구조적 설계가 필요하며, ViT는 자기 주의(self-attention) 모듈을 포함하여 계산 복잡도가 증가합니다. 최근 몇 달 동안, 선택 메커니즘과 스캔(Scan) 연산(S6)을 통해 새로운 시퀀스 상태 공간(S4) 모델이 트랜스포머 아키텍처보다 우수한 성능과 계산 효율성을 보여주었습니다. 이 모델은 일상적으로 맘바(Mamba)라고 불리며, VMamba 모델은 이미지 작업(예: 분류)에 맘바 메커니즘을 통합하여 현재 ImageNet 데이터셋에서 최신 기술(state-of-the-art, SOTA)을 달성하고 있습니다.본 연구에서는 학술적으로 저평가된 식품 데이터셋 CNFOOD-241을 소개하고, VMamba 모델 내에 잔차 학습 프레임워크를 도입하여 원래 VMamba 아키텍처 설계에 내재된 전역 및 국소 상태 특징을 동시에 활용하는 방법론을 선구적으로 제시합니다. 연구 결과는 VMamba가 세부적인 분류와 식품 분류에서 현재 SOTA 모델들을 능가함을 보여주며, 제안된 Res-VMamba는 사전 훈련 가중치 없이 79.54%의 정확도를 달성하여 분류 정확도를 더욱 향상시키고 있습니다. 우리의 발견은 제안된 방법론이 CNFOOD-241 데이터셋에서 식품 인식의 SOTA 성능에 대한 새로운 벤치마크를 설정함을 명확히 입증합니다. 코드는 GitHub에서 확인할 수 있습니다: https://github.com/ChiShengChen/ResVMamba.