2 个月前
Res-VMamba:基于选择性状态空间模型和深度残差学习的细粒度食品分类视觉识别
Chen, Chi-Sheng ; Chen, Guan-Ying ; Zhou, Dong ; Jiang, Di ; Chen, Dai-Shi

摘要
食物分类是开发食品视觉任务的基础,并在计算营养学这一新兴领域中发挥着关键作用。由于食物的复杂性需要细粒度分类,近期的学术研究主要通过修改卷积神经网络(CNNs)和/或视觉变换器(ViTs)来进行食物类别分类。然而,为了学习细粒度特征,CNN主干需要额外的结构设计,而包含自注意力模块的ViT则增加了计算复杂度。近几个月来,一种新的序列状态空间(S4)模型通过选择机制和扫描(Scan, S6)计算,俗称Mamba,展示了优于Transformer架构的性能和计算效率。VMamba模型将Mamba机制应用于图像任务(如分类),目前在ImageNet数据集上建立了最先进的(SOTA)水平。在这项研究中,我们介绍了一个学术界低估的食物数据集CNFOOD-241,并首次将残差学习框架整合到VMamba模型中,以同时利用其原始架构设计中的全局和局部状态特征。研究结果表明,VMamba在细粒度和食物分类方面超越了当前的SOTA模型。所提出的Res-VMamba进一步将分类准确率提高到79.54%,且无需预训练权重。我们的发现阐明了所提出的方法在CNFOOD-241数据集上的食物识别SOTA性能方面建立了一个新的基准。代码可在GitHub上获取:https://github.com/ChiShengChen/ResVMamba。