2ヶ月前
Uformer: 画像復元のための一般的なU字型トランスフォーマー
Zhendong Wang; Xiaodong Cun; Jianmin Bao; Wengang Zhou; Jianzhuang Liu; Houqiang Li

要約
本稿では、画像復元のための効果的かつ効率的なTransformerベースのアーキテクチャであるUformerを提案します。Uformerでは、Transformerブロックを使用して階層的なエンコーダー-デコーダーネットワークを構築しています。Uformerには2つの核心的な設計があります。第一に、新しい局所強化ウィンドウ(LeWin)Transformerブロックを導入しました。このブロックは、グローバルな自己注意ではなく、非重複ウィンドウに基づく自己注意を行います。これにより、高解像度特徴マップでの計算量が大幅に削減されつつ、局所的なコンテキストを捉えることができます。第二に、学習可能な多スケール復元モデレータを提案しました。これは多スケール空間バイアスの形式で実装されており、Uformerデコーダーの複数レイヤーにおける特徴を調整します。当該モデレータは、最小限の追加パラメータと計算コストで、様々な画像復元タスクにおいて詳細を復元する優れた能力を持っています。これらの2つの設計により、Uformerは局所的および全局的な依存関係を捕捉する高い能力を持つようになりました。当手法の評価のために、画像ノイズ除去、モーションブラー除去、ピント外れブラー除去および雨除去などのいくつかの画像復元タスクについて広範な実験を行いました。特別な工夫なしに、当Uformerは最先端アルゴリズムと比較して優れたまたは同等の性能を達成しています。コードとモデルはhttps://github.com/ZhendongWang6/Uformer から入手可能です。