8 个月前

摘要

MobileViT（MobileViTv1）通过结合卷积神经网络（CNNs）与视觉Transformer（ViTs），构建了适用于移动端视觉任务的轻量化模型。尽管MobileViTv1中的核心模块能够实现具有竞争力的最先进性能，但其内部的融合模块（fusion block）带来了模型扩展性挑战，并导致学习过程复杂化。为此，我们对融合模块进行了简化且有效的改进，提出了全新的MobileViTv3-block，有效解决了模型扩展难题，并显著降低了学习难度。基于该新模块，我们构建了MobileViTv3-XXS、XS和S系列模型，在ImageNet-1k、ADE20K、COCO以及PascalVOC2012等多个基准数据集上的表现均优于MobileViTv1。在ImageNet-1k数据集上，MobileViTv3-XXS和MobileViTv3-XS分别比MobileViTv1-XXS和MobileViTv1-XS提升了2%和1.9%的准确率。近期发布的MobileViTv2架构通过移除融合模块，并采用线性复杂度的Transformer结构，实现了对MobileViTv1的性能超越。我们进一步将所提出的融合模块引入MobileViTv2，构建了MobileViTv3-0.5、0.75和1.0系列模型。与MobileViTv2相比，这些新模型在ImageNet-1k、ADE20K、COCO及PascalVOC2012数据集上均取得了更高的精度。具体而言，在ImageNet-1k上，MobileViTv3-0.5和MobileViTv3-0.75分别比MobileViTv2-0.5和MobileViTv2-0.75提升了2.1%和1.0%。在分割任务方面，MobileViTv3-1.0在ADE20K和PascalVOC2012数据集上的mIOU分别比MobileViTv2-1.0高出2.07%和1.1%。相关代码及训练好的模型已开源，可通过以下链接获取：https://github.com/micronDLA/MobileViTv3

源 PDF