8ヶ月前

概要

MobileViT（MobileViTv1）は、畳み込みニューラルネットワーク（CNN）とビジョントランスフォーマー（ViT）を組み合わせることで、モバイル向けビジョンタスクに適した軽量モデルを実現しています。尽管MobileViTv1ブロック自体が競争力のある最先端の性能を達成しているものの、その内部に含まれる融合ブロック（fusion block）はスケーリングの課題を引き起こし、学習の複雑さも増すという問題がありました。本研究では、この融合ブロックに簡潔かつ効果的な変更を加え、MobileViTv3-blockを提案しました。これにより、スケーリングの課題が軽減され、学習の負担も大幅に軽減されます。本研究で提案するMobileViTv3-blockを用いて構築されたMobileViTv3-XXS、XS、Sモデルは、ImageNet-1k、ADE20K、COCO、PascalVOC2012の各データセットにおいて、MobileViTv1を上回る性能を示しました。特にImageNet-1kでは、MobileViTv3-XXSとMobileViTv3-XSがそれぞれMobileViTv1-XXSおよびMobileViTv1-XSより2%、1.9%高い精度を達成しました。最近発表されたMobileViTv2アーキテクチャは、融合ブロックを削除し、線形計算量のトランスフォーマーを採用することでMobileViTv1を上回る性能を発揮しています。本研究では、このMobileViTv2に提案した融合ブロックを組み込むことで、MobileViTv3-0.5、0.75、1.0モデルを構築しました。これらの新モデルは、ImageNet-1k、ADE20K、COCO、PascalVOC2012の各データセットにおいて、MobileViTv2を上回る精度を達成しました。特にImageNet-1kでは、MobileViTv3-0.5とMobileViTv3-0.75がそれぞれMobileViTv2-0.5およびMobileViTv2-0.75より2.1%、1.0%高い精度を示しました。セグメンテーションタスクにおいても、MobileViTv3-1.0はADE20Kデータセットで2.07%、PascalVOC2012データセットで1.1%高いmIOUを達成し、MobileViTv2-1.0を上回りました。本研究のコードおよび学習済みモデルは、以下のURLから公開されています：https://github.com/micronDLA/MobileViTv3

ソースPDF