2ヶ月前

MAXIM: 多軸MLPによる画像処理

Zhengzhong Tu; Hossein Talebi; Han Zhang; Feng Yang; Peyman Milanfar; Alan Bovik; Yinxiao Li
MAXIM: 多軸MLPによる画像処理
要約

最近のトランスフォーマーと多層パーセプトロン(MLP)モデルの進展は、コンピュータビジョンタスク向けの新しいネットワークアーキテクチャ設計を提供しています。これらのモデルは画像認識などの多くのビジョンタスクにおいて効果的であることが証明されていますが、低レベルビジョンへの適応にはまだ課題が残っています。高解像度画像のサポートの柔軟性不足や局所注意の制限などが、おそらく主要なボトルネックとなっています。本研究では、MAXIMと呼ばれるマルチアクシスMLPベースのアーキテクチャを提案します。これは、画像処理タスク向けに効率的かつ柔軟な汎用ビジョンバックボーンとして機能します。MAXIMはUNet形状の階層構造を使用し、空間ゲート付きMLPによって長距離相互作用を可能にします。具体的には、MAXIMには2つのMLPベースの構成要素が含まれています:ローカルおよびグローバル視覚情報の効率的でスケーラブルな空間混合を可能にするマルチアクシスゲート付きMLPと、クロス注意の代替となるクロスゲーティングブロックです。後者はクロス特徴条件付けに対応しています。これらのモジュールはすべてMLPに基づいていますが、グローバルかつ「完全畳み込み」であるという2つの望ましい特性も享受しています。我々の広範な実験結果は、提案されたMAXIMモデルが10以上のベンチマークで最先端の性能を達成し、ノイズ除去、ぼかし除去、雨除去、霧除去、および強化など幅広い画像処理タスクにおいて競合するモデルと同等または少ないパラメータ数とFLOPsで優れた性能を発揮することを示しています。ソースコードおよび学習済みモデルは\url{https://github.com/google-research/maxim}から利用可能です。