効率的なConvNetを用いた画像のぼかし除去の再検討

画像のぼかし除去(image deblurring)は、ぼかれた画像から元の鮮明な画像を復元するタスクであり、コンピュータビジョン分野における幅広い応用が期待されている。長年にわたり、畳み込みニューラルネットワーク(CNN)はこの分野で優れた性能を発揮してきたが、近年、トランスフォーマー(Transformer)と呼ばれる代替的なネットワークアーキテクチャが、さらに優れた性能を示すことが明らかになった。その優位性の背景には、マルチヘッド自己注意(MHSA)機構があり、これはCNNに比べてより広い有効受容 field(ERF)と、入力コンテンツへの高い適応性を提供する。しかし、MHSAは入力解像度の二乗に比例して計算コストが増加するため、高解像度画像のぼかし除去においては実用性に課題がある。本研究では、広い有効受容 field(ERF)を備えながら、計算コストが低く、かつトランスフォーマーと同等あるいは上回る性能を発揮する統一的で軽量なCNNネットワークを提案する。本研究の鍵となる設計は、大キーネル深度方向畳み込みと空間・チャネル混合構造を組み合わせた効率的なCNNブロック「LaKD」であり、トランスフォーマーと同等あるいはより広いERFを実現しつつ、パラメータ数を大幅に削減している。具体的には、焦点ずれぼかしおよび運動ぼかしの最新ベンチマークデータセットにおいて、Restormer(SOTA)と比較してPSNRで+0.17dB/+0.43dBの向上を達成し、パラメータ数は32%削減、MAC数は39%削減を実現した。広範な実験により、本ネットワークの優れた性能と各モジュールの有効性が実証された。さらに、ERFを定量的に評価可能な簡潔で直感的な指標「ERFMeter」を提案し、この指標がネットワーク性能と高い相関を示すことを示した。本研究が、画像のぼかし除去を越えた分野において、CNNとトランスフォーマーのアーキテクチャの利点と欠点をさらに探求する研究コミュニティのインスピレーションとなることを期待する。