17日前
高品質な画像のぼかし除去のための効率的な周波数領域ベースのTransformer
Lingshun Kong, Jiangxin Dong, Mingqiang Li, Jianjun Ge, Jinshan Pan

要約
我々は、高品質な画像のぼかし除去に向け、Transformerの周波数領域における特性を有効に活用する効率的かつ効果的な手法を提案する。本手法の提案の背景には、空間領域における2つの信号の相関または畳み込みが、周波数領域では要素ごとの積に等価であるという畳み込み定理がある。この知見をもとに、空間領域における行列積を用いたスケールドドット積アテンションの推定を、周波数領域での要素ごとの積演算によって効率的に実現する「周波数領域に基づく自己注意ソルバー(FSAS)」を設計した。さらに、Transformerにおける単純な前向き伝播ネットワーク(FFN)をそのまま用いるだけでは良好な復元結果が得られないことにも着目した。この問題を克服するため、JPEG圧縮アルゴリズムに基づき、特徴量の低周波成分と高周波成分のうち、どの情報を保持すべきかを判別的に決定するゲート機構を導入した、シンプルながら有効な「判別型周波数領域ベースFFN(DFFN)」を提案する。本手法で提唱するFSASとDFFNを、エンコーダ・デコーダ構造に基づく非対称ネットワークに統合した。特に、画像のぼかし除去性能を向上させるために、FSASはデコーダモジュールでのみ使用する。実験結果から、提案手法は最先端の手法と比較しても優れた性能を示した。コードは、\url{https://github.com/kkkls/FFTformer}にて公開される予定である。