Command Palette
Search for a command to run...
MobileViTv3:一种面向移动端的视觉Transformer,通过简单有效的局部、全局与输入特征融合实现高效性能
MobileViTv3:一种面向移动端的视觉Transformer,通过简单有效的局部、全局与输入特征融合实现高效性能
Shakti N. Wadekar Abhishek Chaurasia
摘要
MobileViT(MobileViTv1)通过结合卷积神经网络(CNNs)与视觉Transformer(ViTs),构建了适用于移动端视觉任务的轻量化模型。尽管MobileViTv1中的核心模块能够实现具有竞争力的最先进性能,但其内部的融合模块(fusion block)带来了模型扩展性挑战,并导致学习过程复杂化。为此,我们对融合模块进行了简化且有效的改进,提出了全新的MobileViTv3-block,有效解决了模型扩展难题,并显著降低了学习难度。基于该新模块,我们构建了MobileViTv3-XXS、XS和S系列模型,在ImageNet-1k、ADE20K、COCO以及PascalVOC2012等多个基准数据集上的表现均优于MobileViTv1。在ImageNet-1k数据集上,MobileViTv3-XXS和MobileViTv3-XS分别比MobileViTv1-XXS和MobileViTv1-XS提升了2%和1.9%的准确率。近期发布的MobileViTv2架构通过移除融合模块,并采用线性复杂度的Transformer结构,实现了对MobileViTv1的性能超越。我们进一步将所提出的融合模块引入MobileViTv2,构建了MobileViTv3-0.5、0.75和1.0系列模型。与MobileViTv2相比,这些新模型在ImageNet-1k、ADE20K、COCO及PascalVOC2012数据集上均取得了更高的精度。具体而言,在ImageNet-1k上,MobileViTv3-0.5和MobileViTv3-0.75分别比MobileViTv2-0.5和MobileViTv2-0.75提升了2.1%和1.0%。在分割任务方面,MobileViTv3-1.0在ADE20K和PascalVOC2012数据集上的mIOU分别比MobileViTv2-1.0高出2.07%和1.1%。相关代码及训练好的模型已开源,可通过以下链接获取:https://github.com/micronDLA/MobileViTv3