
要約
ビデオ予測は、ビデオが高次元の空間情報だけでなく複雑な時間情報をも含むため、難問とされてきました。ビデオ予測は、最近のフレームから特徴を抽出し、それらを使用して将来のフレームの近似値を生成することで行うことができます。本研究では、この問題にビデオ内の空間特徴と時間特徴を分離するアプローチで取り組みました。私たちは相互抑制ネットワーク(Mutual Suppression Network: MSnet)を導入しました。このネットワークは敵対的な方法で訓練され、動き情報が含まれない空間特徴と位置情報が含まれない運動特徴を生成します。MSnetはエンコーダー-デコーダー構造内で運動ガイド接続を使用して、前のフレームの空間特徴を将来のフレームの時刻に変換します。私たちは、分離表現を使用したビデオ予測におけるMSnetの利用方法を示し、さらに実験を通じて当手法による特徴分離の有効性を評価しました。MSnetはより単純なエンコーダーを持つにもかかわらず、他の最近のビデオ予測手法よりも優れた結果を得ています。