
要約
Transformerを基盤とする手法は、画像の超解像など低レベル視覚タスクにおいて優れた性能を示している。しかし、属性解析を通じて検証したところ、これらのネットワークは入力情報の空間的範囲を限定的にしか活用できていないことがわかった。これは、現行のネットワークにおいてTransformerの潜在能力が十分に発揮されていないことを示唆している。より良い再構成を実現するためには、より多くの入力ピクセルを有効に活用する必要がある。そこで、チャネルアテンションとウィンドウベースの自己アテンションを組み合わせた新しいハイブリッドアテンションTransformer(HAT)を提案する。このアーキテクチャは、グローバルな統計情報を活用できる点と、強力な局所フィッティング能力を持つ点という、両者の補完的な利点を活かす。さらに、隣接するウィンドウ間の特徴間の相互作用を強化するため、重複付きクロスアテンションモジュールを導入し、クロスウィンドウ情報の効果的な集約を実現した。学習段階では、モデルの潜在能力をさらに引き出すために、同種タスクでの事前学習戦略を追加で採用した。広範な実験により、提案するモジュールの有効性が確認され、モデルのスケーリングにより、このタスクにおける性能向上の可能性がさらに明らかになった。全体的な手法は、最先端の手法を1dB以上上回る性能を達成した。コードとモデルは、https://github.com/XPixelGroup/HAT にて公開されている。