6ヶ月前

概要

畳み込みニューラルネットワーク（CNN）およびビジョン変換器（ViT）は、画像復元において優れた性能を達成している。特にViTは、長距離依存関係や入力に依存する特徴を効果的に捉えることができるため、一般的にCNNを上回る性能を発揮している。しかし、その計算複雑度は画像解像度の増加に伴い二次的に増大するため、高解像度画像の復元における実用的応用に制限が生じている。本論文では、状態空間モデル（SSM）の視覚データへの利点を活かし、シンプルながら効果的な視覚状態空間モデル（EVSSM）を提案する。既存手法が特徴抽出に複数の固定方向スキャンを用いることで計算コストが著しく増加するのに対し、我々は各SSMベースのモジュールの前段に多様な幾何変換を適用する効率的な視覚スキャンブロックを設計し、有用な非局所情報を捉えつつ高い効率性を維持する。さらに、局所情報をより効果的に捉え、表現するために、効率的な判別的周波数領域ベースのフィードフォワードネットワーク（EDFFN）を提案する。このEDFFNは、潜在的な明確な画像復元に有用な周波数情報を効果的に推定できる。広範な実験結果から、提案手法EVSSMはベンチマークデータセットおよび実世界画像において、最先端手法と比較しても優れた性能を示している。コードは以下のURLで公開されている：https://github.com/kkkls/EVSSM。

ソースPDF