Command Palette
Search for a command to run...
高速ビジョントランスフォーマーとHiLoアテンション
高速ビジョントランスフォーマーとHiLoアテンション
Pan Zizheng ; Cai Jianfei ; Zhuang Bohan
概要
ビジョントランスフォーマー(ViTs)は、コンピュータビジョンにおける最新かつ最も重要なブレークスルーを引き起こしました。これらの効率的な設計は主に計算複雑度の間接的な指標、すなわちFLOPsによって導かれていますが、この指標はスループットなどの直接的な指標と明確なギャップがあります。したがって、効率的なViTsの設計原則として、対象プラットフォームでの直接的な速度評価を使用することを提案します。特に、LITv2という単純で効果的なViTを紹介します。LITv2は、異なるモデルサイズのスペクトラムにおいて既存の最先端手法に対して有利な性能を示し、さらに高速性を持つため、その性能は優れています。LITv2の中心には、HiLoと呼ぶ新しい自己注意機構があります。HiLoは、画像内の高周波数が局所的な細かい詳細を捉え、低周波数が全体構造に焦点を当てる一方で、マルチヘッド自己注意層が異なる周波数の特性を無視するという洞察から着想を得ています。そこで、各ローカルウィンドウ内で自己注意を行うことで高周波数パターンを符号化し、各ウィンドウおよび入力特徴マップの各クエリ位置からの平均プーリングされた低周波数キーと値との間でグローバルな注意を行うことで低周波数パターンを符号化するよう、ヘッドを2つのグループに分離して高/低周波数パターンを解離することを提案します。両グループに対する効率的な設計のおかげで、GPUやCPU上でFLOPs、速度、メモリ消費量について包括的にベンチマークを行い、HiLoが既存の注意機構よりも優れていることを示しています。例えば、CPU上ではHiLoは空間削減注意(spatial reduction attention)より1.4倍速く、ローカルウィンドウ注意(local window attention)より1.6倍速いです。HiLoにより強化されたLITv2は、画像分類や密集検出・セグメンテーションなど主要なビジョンタスクの強力なバックボーンとして機能します。コードは https://github.com/ziplab/LITv2 で利用可能です。