17日前

画像分類のためのグローバルフィルタネットワーク

Yongming Rao, Wenliang Zhao, Zheng Zhu, Jiwen Lu, Jie Zhou
画像分類のためのグローバルフィルタネットワーク
要約

視覚分野における自己注意(self-attention)および純粋な多層パーセプトロン(MLP)モデルの最近の進展は、より少ない誘導的バイアス(inductive biases)で有望な性能を達成する可能性を示している。これらのモデルは一般的に、原始データから空間的位置間の相互作用を学習することに基づいている。しかし、自己注意機構やMLPの計算複雑度は、画像サイズの増大に伴い二次的に増加するため、高解像度の特徴量が必要な状況ではスケーラビリティに課題がある。本論文では、概念的に単純でありながら計算効率に優れた「グローバルフィルターネットワーク(Global Filter Network: GFNet)」を提案する。GFNetは、周波数領域において長距離の空間的依存関係を、対数線形の計算複雑度で学習する。本アーキテクチャは、視覚変換器(Vision Transformer)における自己注意層を、以下の3つの主要な操作に置き換える:2次元離散フーリエ変換、周波数領域特徴量と学習可能なグローバルフィルタの要素ごとの乗算、および2次元逆フーリエ変換。ImageNetおよび下流タスクにおいて、本モデルが優れた精度/複雑度のトレードオフを示すことを実証した。結果から、GFNetは効率性、一般化能力、ロバスト性の観点から、変換器型モデルやCNNと競合可能な代替手段であることが明らかになった。コードは以下のURLで公開されている:https://github.com/raoyongming/GFNet