2ヶ月前

写実的な単一画像の超解像度生成にジェネレーティブ・アドバーザリアル・ネットワークを使用する

Christian Ledig; Lucas Theis; Ferenc Huszar; Jose Caballero; Andrew Cunningham; Alejandro Acosta; Andrew Aitken; Alykhan Tejani; Johannes Totz; Zehan Wang; Wenzhe Shi
写実的な単一画像の超解像度生成にジェネレーティブ・アドバーザリアル・ネットワークを使用する
要約

単一画像の超解像(Super-Resolution, SR)において、精度と速度の向上を実現するためのより高速で深層の畳み込みニューラルネットワーク(Convolutional Neural Networks, CNN)の進歩にもかかわらず、依然として解決されていない中心的な問題が存在します。それは、大きな拡大率での超解像時に細かいテクスチャ詳細をどのように回復させるかという問題です。最適化ベースの超解像手法の動作は主に目的関数の選択によって決定されます。最近の研究では、平均二乗再構成誤差(Mean Squared Reconstruction Error, MSRE)を最小化することに焦点が当てられてきました。その結果得られた推定値は高いピーク信号対雑音比(Peak Signal-to-Noise Ratio, PSNR)を持つものの、高周波成分が不足しており、視覚的に満足できるレベルに達していないことが多く、高解像度で期待される忠実度に見合っていない場合があります。本論文では、SRGAN(Super-Resolution Generative Adversarial Network)という画像超解像用の生成敵対ネットワーク(Generative Adversarial Network, GAN)を提案します。当該フレームワークは4倍拡大率での写真現実的な自然画像を推定する最初のものであると認識しています。これを達成するために、敵対的損失とコンテンツ損失からなる知覚損失関数を提案します。敵対的損失は、超解像された画像と元の写真現実的な画像を区別する識別器ネットワークを使用して、自然画像多様体へと解を導きます。さらに、ピクセル空間での類似性ではなく知覚的類似性に基づくコンテンツ損失を使用します。我々の深層残差ネットワークは公開ベンチマークデータ上で大幅なダウンサンプリングを受けた画像から写真現実的なテクスチャを回復させる能力を持っています。広範囲にわたる平均意見スコア(Mean Opinion Score, MOS)テストにより、SRGANを使用することで視覚的品質に大きく有意な改善が見られました。SRGANで得られたMOSスコアは、最先端技術で得られるものよりも元の高解像度画像に近いものでした。