17日前

多スケール高解像度Vision Transformerによるセマンティックセグメンテーション

Jiaqi Gu, Hyoukjun Kwon, Dilin Wang, Wei Ye, Meng Li, Yu-Hsin Chen, Liangzhen Lai, Vikas Chandra, David Z. Pan
多スケール高解像度Vision Transformerによるセマンティックセグメンテーション
要約

Vision Transformer(ViT)は、畳み込みニューラルネットワーク(CNN)ベースのモデルと比較して、コンピュータビジョンタスクにおいて優れた性能を発揮するようになりつつある。しかし、ViTは主に画像分類を目的として設計されており、単一スケールの低解像度表現を生成するため、セマンティックセグメンテーションのような高密度予測タスクに対しては課題が残っている。そこで本研究では、高解像度のマルチブランチアーキテクチャをViTと統合することで、意味的豊かさと空間的精度を兼ね備えたマルチスケール表現を学習できるよう改良したHRViTを提案する。さらに、さまざまなブランチ・ブロックの共同最適化技術を用いて、HRViTのモデル性能と効率性のバランスを最適化した。具体的には、非均質なブランチ設計の検討、線形層内の冗長性の低減、およびアテンションブロックの表現力の向上を実施した。これらのアプローチにより、ADE20KおよびCityscapesにおける評価結果から、HRViTはセマンティックセグメンテーションにおける性能と効率性のパレート最適前線を新たな水準まで押し上げた。HRViTはADE20Kで50.20%のmIoU、Cityscapesでは83.16%のmIoUを達成し、最先端のMiTおよびCSWinバックボーンを平均+1.78%のmIoU向上で上回るとともに、パラメータ数を28%削減、FLOPsを21%削減するという効率性の向上も実現した。これらは、HRViTがセマンティックセグメンテーションにおける強力なビジョンバックボーンとしての可能性を示している。

多スケール高解像度Vision Transformerによるセマンティックセグメンテーション | 最新論文 | HyperAI超神経