
要約
動きは動画予測における重要な手がかりであり、通常、動画コンテンツを静的成分と動的成分に分離することで活用される。従来の多くの研究では動きを用いた手法は決定論的であるが、将来の不確実性をモデル化できる確率的(stochastic)な手法も存在する。既存の確率的モデルの多くは動きについて明示的に推論していないか、静的成分について制限的な仮定を置いている。本論文では、動きの履歴に基づいて将来を予測することで、画像の外観と動きの両方を確率的に推論する手法を提案する。履歴を用いない動きの明示的推論でも、現在の確率的モデルと同等の性能を達成する。さらに、動きの履歴を活用することで、複数フレーム先の整合性のある動的変化を予測可能となり、性能が向上する。本モデルは一般的な動画予測データセットでは最先端のモデルと同等の性能を示すが、複雑な動きと動的な背景を有する2つの実世界の自動運転データセットでは、顕著に優れた性能を発揮する。