2ヶ月前

Restormer: 高解像度画像復元のための効率的なトランスフォーマー

Zamir, Syed Waqas ; Arora, Aditya ; Khan, Salman ; Hayat, Munawar ; Khan, Fahad Shahbaz ; Yang, Ming-Hsuan
Restormer: 高解像度画像復元のための効率的なトランスフォーマー
要約

畳み込みニューラルネットワーク(CNNs)は、大規模データから一般化可能な画像の事前知識を学習する点で優れているため、これらのモデルは画像復元や関連タスクに広く応用されてきました。最近、別の種類のニューラルアーキテクチャであるトランスフォーマーが自然言語処理や高レベル視覚タスクにおいて著しい性能向上を示しています。トランスフォーマーはCNNの欠点(すなわち、限られた受容野と入力内容への対応性の低さ)を軽減しますが、その計算複雑度は空間解像度の2乗に比例して増加するため、高解像度画像を扱うほとんどの画像復元タスクには適用が困難でした。本研究では、多頭注意機構(multi-head attention)とフィードフォワードネットワークなどの構成要素におけるいくつかの重要な設計により、効率的なトランスフォーマーモデルを提案します。これにより長距離ピクセル相互作用を捉えることが可能となりつつも、依然として大規模な画像に対して適用可能です。当モデルは「Restoration Transformer(Restormer)」と名付けられ、画像除雨、単一画像モーションブラー除去、ピント外れブラー除去(単一画像およびデュアルピクセルデータ)、そして画像ノイズ除去(ガウシアングレースケール/カラーノイズ除去および実際の画像ノイズ除去)など、複数の画像復元タスクにおいて最先端の結果を達成しています。ソースコードと事前学習済みモデルは https://github.com/swz30/Restormer で公開されています。