要約
画像復元は、劣化した画像から高品質な画像を再構成することを目的とし、多くの応用シーンにおいて重要な役割を果たしている。近年、畳み込みニューラルネットワーク(CNN)からTransformerベースのモデルへのパラダイムシフトが進んでおり、その背景には長距離ピクセル間の相互作用を強力にモデル化できる点にある。本研究では、CNNが画像復元において持つ潜在的可能性に着目し、単純な畳み込みネットワークアーキテクチャであるConvIRを提案する。その結果、Transformerベースのモデルと同等、あるいはそれ以上の性能を達成できることを示した。先進的な画像復元手法の特性を再検討した結果、モデル性能向上に寄与する複数の重要な要因を同定した。この知見を基に、低コストな畳み込み演算子に基づく新たな画像復元ネットワークの構築を試みた。広範な実験により、ConvIRが20のベンチマークデータセットにおいて、画像の霞み除去、画像の運動/合焦外ぼかし除去、雨ノイズ除去、雪ノイズ除去の5つの代表的な画像復元タスクにおいて、極めて高い性能を実現しつつ、計算複雑度が低く抑えられていることが明らかになった。