17日前

EfficientViT：高解像度密度予測におけるマルチスケール線形アテンション

Han Cai, Junyan Li, Muyan Hu, Chuang Gan, Song Han

要約

高解像度の密な予測は、計算写真技術や自動運転など、多くの実用的な応用を可能にする。しかし、その膨大な計算コストのため、最先端の高解像度密な予測モデルをハードウェアデバイスに展開することは困難である。本研究では、新たなマルチスケール線形アテンションを導入した「EfficientViT」という高解像度ビジョンモデルの新シリーズを提案する。従来の高解像度密な予測モデルが、計算コストが高くハードウェアに不向きなソフトマックスアテンションや大カーネル畳み込み、あるいは複雑なトポロジ構造に依存して性能を達成していたのに対し、本研究で提案するマルチスケール線形アテンションは、軽量かつハードウェアに適した演算のみで、グローバルな受容野とマルチスケール学習（高解像度密な予測に求められる2つの望ましい特性）を実現する。その結果、EfficientViTは、モバイルCPU、エッジGPU、クラウドGPUなど、多様なハードウェアプラットフォーム上で、従来の最先端モデルと比較して顕著な性能向上と大幅な高速化を実現した。Cityscapesデータセットにおいて性能を損なうことなく、SegFormerおよびSegNeXtと比較して、それぞれ最大13.9倍および6.2倍のGPU待機時間の短縮を達成した。超解像処理においては、Restormerと比較して最大6.4倍の高速化を実現しつつ、PSNRで0.11dBの向上も達成した。また、Segment Anythingタスクでは、A100 GPU上で48.9倍のスループット向上を実現し、COCOデータセットにおけるゼロショットインスタンスセグメンテーション性能もわずかに向上させた。