14日前

VideoGigaGAN:詳細な映像スーパーレゾリューションへの道

Yiran Xu, Taesung Park, Richard Zhang, Yang Zhou, Eli Shechtman, Feng Liu, Jia-Bin Huang, Difan Liu
VideoGigaGAN:詳細な映像スーパーレゾリューションへの道
要約

動画スーパーリゾリューション(VSR)手法は、アップサンプルされた動画において顕著な時間的一貫性を示している。しかし、これらの手法は生成能力に制限があるため、画像処理に比べてぼやけた結果を生みがちである。これにより根本的な問いが浮かび上がる:生成型画像アップサンプラーの成功を、時間的一貫性を保持したままVSRタスクに拡張することは可能だろうか?本研究では、高周波成分と時間的一貫性を両立した動画を生成可能な新しい生成型VSRモデル「VideoGigaGAN」を提案する。VideoGigaGANは大規模な画像アップサンプラー「GigaGAN」を基盤として構築されている。時間方向のモジュールを追加するだけでGigaGANを動画モデルに拡張すると、著しい時間的フレッティング(ちらつき)が発生する。本研究では、この現象の背後にある複数の主要な課題を特定し、動画の時間的一貫性を著しく向上させるための技術を提案する。実験の結果、従来のVSR手法とは異なり、VideoGigaGANはより微細な外観ディテールを保持しつつ、時間的に一貫した動画を生成することが確認された。公開データセット上で最先端のVSRモデルと比較し、8倍のスーパーリゾリューションを実現した動画結果を提示することで、VideoGigaGANの有効性を実証した。

VideoGigaGAN:詳細な映像スーパーレゾリューションへの道 | 最新論文 | HyperAI超神経