
要約
過去の連続したビデオフレームのシーケンスが与えられた場合、将来のビデオフレームを予測する手法を提案します。当手法は、画像を直接合成するのではなく、背景シーンと動く物体を分離することで複雑なシーンダイナミクスを理解することを目指しています。将来のシーンコンポーネントの外観は、背景の非剛体変形と動く物体のアフィン変換によって予測されます。予測された外観は組み合わせられ、合理的な将来のビデオを作成します。この手順により、当手法は他のアプローチに比べて断然少ない引き裂きや歪みアーティファクトを示します。CityscapesおよびKITTIデータセットにおける実験結果は、当モデルが視覚的品質と精度において最先端技術を上回っていることを示しています。