6ヶ月前

概要

動画スーパーレゾリューション（VSR）技術は、補間ベースのアルゴリズムが引き起こす不快なぼやけを回避しつつ、低品質な動画の再構成において優れた性能を発揮する。しかし、膨大な計算複雑性とメモリ消費量が、実用的なエッジデバイスへの適用およびリアルタイム推論の実現を阻害しており、特に大規模なVSRタスクにおいて顕著な課題となっている。本論文では、リアルタイムVSRシステムの実現可能性を検討し、効率的かつ汎用的なVSRネットワーク「EGVSR」を設計した。提案するEGVSRは、時間的整合性を確保するため、空間時間的対抗学習（spatio-temporal adversarial learning）を基盤としている。4K解像度での高速処理を実現するため、高視覚品質を維持しつつ、計算負荷を低減するための軽量なネットワーク構造および効率的なアップサンプリング手法を採用した。さらに、実ハードウェアプラットフォーム上でバッチ正規化の計算統合、畳み込み加速アルゴリズム、およびその他のニューラルネットワーク加速技術を実装し、EGVSRネットワークの推論プロセスを最適化した。その結果、EGVSRは4K解像度で29.61FPSのリアルタイム処理能力を達成した。現在最も先進的なVSRネットワークであるTecoGANと比較して、計算密度は85.04％削減され、性能は7.92倍向上した。視覚品質の観点では、公開テストデータセットVid4においてLPIPS、tOF、tLPなど多数の指標でトップを記録し、全体的な性能スコアにおいて他の最先端手法を上回った。本研究のソースコードは、https://github.com/Thmen/EGVSR にて公開されている。

ソースPDF