
要約
動画生成における時間的不整合の2つの病理的状態、すなわち動画の凍結(video freezing)とループ(video looping)を同定した。時間的多様性をより正確に評価するため、効果的で実装が容易、データに依存せず、解釈可能な補完的評価指標のクラスを提案する。さらに、現在の最先端モデルが固定長の動画サンプルにのみ訓練されていることにより、長期的な時系列モデリングが制限されていることを観察した。この問題に対処するため、動画生成の問題をマルコフ決定過程(Markov Decision Process: MDP)として再定式化した。このアプローチの基本的な考えは、運動を無限の予測期間を持つ確率過程として表現することで、固定長の制約を克服し、時間的アーティファクトの発生を軽減することにある。本手法が最先端のMoCoGANフレームワークに容易に統合可能であることを示した。Human ActionsおよびUCF-101データセットを用いた実験により、MDPに基づくモデルがメモリ効率が高く、新規および既存の評価指標の両面で動画品質の向上を実現できることを実証した。