2ヶ月前

ビデオ・ツー・ビデオ合成

Ting-Chun Wang; Ming-Yu Liu; Jun-Yan Zhu; Guilin Liu; Andrew Tao; Jan Kautz; Bryan Catanzaro

要約

私たちはビデオ間合成の問題を研究しています。この問題の目的は、入力ソースビデオ（例えば、セマンティックセグメンテーションマスクのシーケンス）から、その内容を正確に描写する出力の写実的なビデオへのマッピング関数を学習することです。画像間合成の問題が人気のあるトピックである一方で、ビデオ間合成の問題は文献においてあまり探索されていません。時間的な動態を理解せずに既存の画像合成手法を直接入力ビデオに適用すると、しばしば視覚的に低品質で時間的に一貫性のないビデオが生成されます。本論文では、生成対抗学習フレームワークに基づく新しいビデオ間合成アプローチを提案します。慎重に設計されたジェネレータとディスクリミネータのアーキテクチャ、および空間・時間的な対抗目標を組み合わせることで、セグメンテーションマスクやスケッチ、ポーズなど多様な入力形式に対して高解像度で写実的かつ時間的に一貫したビデオ結果を達成しました。複数のベンチマークでの実験により、当方法が強力なベースラインと比較して優れていることが示されています。特に、当モデルは最大30秒までの街頭シーンの2K解像度ビデオを合成する能力を持ち、これはビデオ合成技術における最先端を大幅に進展させています。最後に、当アプローチを将来のビデオ予測に適用し、いくつかの最先端競合システムを超える性能を達成しました。