要約
画像復元は長年にわたり研究が続けられている課題であり、劣化した画像から元の鮮明な画像を復元することを目的としている。近年、自己注意(self-attention)機構が長距離依存関係を効果的に捉える能力に優れていることから、Transformerを基盤とする手法は多様な画像復元タスクにおいて優れた性能を達成している。しかし、従来の自己注意機構は入力サイズに対して二次の計算複雑度を示すため、画像復元分野におけるさらなる応用に制約が生じている。本論文では、より効率的かつ効果的な情報統合を実現するため、ストリップ注意ネットワーク(Strip Attention Network, SANet)を提案する。具体的には、各画素について、同じ行または列に隣接する画素から文脈情報を収集する「ストリップ注意ユニット」を導入した。この操作を異なる方向に適用することで、各位置が拡大された領域からの情報を捉えることが可能となる。さらに、異なる特徴グループに異なる受容野(receptive field)を適用することで、表現学習の能力を強化した。これらの設計をU字型のバックボーンに統合したSANetは、複数の画像復元タスクにおいて最先端のアルゴリズムと比較しても優れた性能を示した。本研究のコードは、https://github.com/c-yn/SANet にて公開されている。