
要約
近年、学習ベースのモデルにより、単一画像超解像(SISR)の性能が向上している。しかし、動画の各フレームに対してSISRを逐次適用すると、時間的な一貫性が欠けるという問題が生じる。畳み込みニューラルネットワーク(CNN)は、ピーク信号対雑音比(PSNR)や構造的類似性(SSIM)といった画像品質指標において、従来手法を上回っている。一方、生成対抗ネットワーク(GAN)は、大規模な拡大倍率での超解像においてCNNで見られる細部のテクスチャ情報の欠落という課題を緩和できる点で、競争上の優位性を有している。本研究では、時間的に一貫した超解像動画を生成するための新しいGANベースの空間時間的アプローチ「iSeeBetter」を提案する。iSeeBetterは、再帰的バックプロジェクションネットワークの概念を生成器として用い、現在のフレームおよび隣接フレームから空間的および時間的情報を抽出する。さらに、従来のアルゴリズムで見られるアーティファクトを除去しつつ、超解像画像の「自然さ」を向上させるために、超解像用生成対抗ネットワーク(SRGAN)のディスクリミネーターを活用する。平均二乗誤差(MSE)を主な損失最小化目的として用いることでPSNR/SSIMは向上するが、これらの指標は画像内の微細な詳細を十分に捉えられないため、知覚品質の正確な評価には不十分である。この問題に対処するため、四重の損失関数(MSE、知覚損失、対抗損失、全変動(TV)損失)を採用する。実験結果から、iSeeBetterは優れたVSR忠実度を実現し、最先端の性能を上回ることが示された。