8ヶ月前

概要

マルチスケールビジョントランスフォーマー（ViT）は、コンピュータビジョンタスクにおける強力なバックボーンとして注目を集めている一方で、トランスフォーマーにおける自己注意（self-attention）計算は、入力パッチ数に対して二次的に増加するという課題を抱えている。そのため、従来の手法では、計算コストを大幅に削減するために、キー（keys）およびバリュー（values）に対してダウンサンプリング操作（例えば平均プーリング）を適用する傾向にある。本研究では、このような過度に激しいダウンサンプリング設計は逆変換が不可能であり、特に物体内の高周波成分（たとえばテクスチャの詳細）において情報の損失が避けられないことについて指摘する。この問題に着目し、ウェーブレット理論を基盤として、逆変換可能なダウンサンプリングをウェーブレット変換と自己注意学習の統一的な枠組みで定式化した新しいモデル「Wavelet Vision Transformer（Wave-ViT）」を提案する。本手法により、キーおよびバリューに対する無損失のダウンサンプリングを実現しつつ自己注意学習を可能にすることで、効率性と精度のバランスをより良好に達成することが可能となる。さらに、逆ウェーブレット変換を活用して、受容場を拡大した局所的文脈を統合することで、自己注意の出力を強化する。Wave-ViTの優位性は、画像認識、物体検出、インスタンスセグメンテーションなど、複数のビジョンタスクにおいて広範な実験を通じて検証された。その性能は、同等のFLOPs（浮動小数点演算回数）を有する最先端のViTバックボーンを上回っている。ソースコードは以下のURLから公開されている：\url{https://github.com/YehLi/ImageNetModel}。

ソースPDF