
要約
画像の霞取り(Image dehazing)は、霞がかった画像から潜在的な無霞画像を推定する代表的な低レベルビジョンタスクである。近年、畳み込みニューラルネットワーク(CNN)に基づく手法が画像の霞取りを主導してきた。一方、高レベルビジョンタスクにおいて最近飛躍的な進展を遂げたビジョンTransformer(Vision Transformer)は、画像の霞取り分野には新たな視点をもたらしていない。本研究では、広く利用されているSwin Transformerに着目し、そのいくつかの主要な設計が画像の霞取りに適していないことを明らかにした。これに対応して、修正された正規化層、活性化関数、空間情報の集約方式を含む複数の改善を組み込んだDehazeFormerを提案する。様々なデータセット上で複数のDehazeFormerの変種を訓練し、その有効性を検証した。特に、最も頻繁に使用されるSOTSインドアデータセットにおいて、本研究の小型モデルはパラメータ数がわずか25%、計算コストが5%に抑えられながらも、FFA-Netを上回る性能を達成した。知られている限り、本研究の大型モデルは、SOTSインドアデータセットにおいてPSNRが40 dBを超える初めての手法であり、従来の最先端手法を大きく上回る性能を示した。さらに、高次元かつ非一様な霞を効果的に除去する能力を評価するため、大規模なリアルなリモートセンシング用霞取りデータセットを収集した。