8日前
リアルな画像復元および強調のための学習豊富な特徴の活用
Syed Waqas Zamir, Aditya Arora, Salman Khan, Munawar Hayat, Fahad Shahbaz Khan, Ming-Hsuan Yang, Ling Shao

要約
高品質な画像コンテンツを劣化したバージョンから回復するという目的のもと、画像復元は監視、計算写真技術、医療画像、リモートセンシングなど、多岐にわたる応用を有している。近年、畳み込みニューラルネットワーク(CNN)は、画像復元タスクにおいて従来手法を大きく上回る性能を達成している。既存のCNNベースの手法は、主にフル解像度または段階的に低解像度の表現を用いて処理を行う。前者では空間的に正確な結果が得られるが、文脈情報の強さに欠けるのに対し、後者では意味的に信頼性の高い出力が得られるものの、空間的な正確性が劣る。本論文では、ネットワーク全体にわたり空間的に高精度な高解像度表現を維持しつつ、低解像度表現から強力な文脈情報を得るという、複数の目標を統合した新たなアーキテクチャを提案する。本手法の核となるのは、複数の重要な要素を含むマルチスケール残差ブロックである。具体的には、(a) 多スケール特徴量を抽出する並列な多解像度畳み込みストリーム、(b) 多解像度ストリーム間での情報交換、(c) 文脈情報を捉えるための空間的・チャネル的アテンション機構、および (d) アテンションに基づくマルチスケール特徴量の集約である。要するに、本手法は、複数スケールからの文脈情報を統合した豊かな特徴量を学習しつつ、高解像度の空間的詳細を同時に保持する。5つの実画像ベンチマークデータセットを用いた広範な実験により、本手法(MIRNetと命名)が、画像ノイズ除去、スーパーレゾリューション、画像強調など、多様な画像処理タスクにおいて最先端の性能を達成することが示された。ソースコードおよび事前学習済みモデルは、https://github.com/swz30/MIRNet にて公開されている。