
要約
ビデオ生成には、時間的に一貫性と持続性のあるフレームを動的なコンテンツと共に合成することが必要です。本研究では、ジェネレーティブ・アドバーザリアル・ネットワーク(GANs)を使用して、数フレームから無限フレームまで任意の長さのビデオを構成するための時系列関係のモデル化について調査しています。まず、隣接するフレームを組み立てるために、単一画像生成におけるエイリアスフリー操作と適切に事前学習された知識が、各フレームの品質を損なうことなく滑らかなフレーム遷移をもたらすことを示します。次に、ビデオ理解のために最初に設計された時間シフトモジュール(TSM)を識別子に組み込むことで、ジェネレータがより一貫した動態を合成する能力を向上させることに成功しました。さらに、時間的な滑らかさを確保し、無限長のビデオ生成を実現するために新しいB-スプラインベースの運動表現を開発しました。これは訓練で使用されたフレーム数を超えることができます。また、長時間ビデオ生成時の繰り返しコンテンツの問題を軽減するために低ランク時間変調も提案されています。我々は様々なデータセットで当方針を評価し、ビデオ生成基準に対して大幅な改善が見られることを示しました。コードとモデルは公開され、https://genforce.github.io/StyleSV から利用可能となります。