要約
動画における未来のフレームを予測することは、未解決でありながらも極めて困難な課題である。主流の再帰型モデルは巨大なメモリ使用量と計算コストを伴う一方で、畳み込み型モデルは連続する動画フレーム間の時系列的依存関係を効果的に捉えることができない。本研究では、次のフレームと連続する動画入力の間の依存関係をモデル化する完全にCNNベースのアーキテクチャ「PredCNN」を提案する。再帰型モデルの核心的なアイデアである「過去の状態は未来の状態よりも多くの遷移操作を経る」という着想に基づき、過去の動画フレームに対して相対的に多くの演算を提供するカスケード乗算ユニット(CMU)を設計した。この新規に提案されたユニットにより、PredCNNは再帰的チェーン構造を一切用いずに未来の空間時系列データを予測可能となり、勾配伝播の負荷が軽減され、完全な並列最適化が実現できる。実験の結果、PredCNNは標準的なMoving MNISTデータセットおよび2つの困難な群衆流れ予測データセットにおいて、最先端の再帰型モデルを上回る性能を達成するとともに、高速な学習速度と低メモリ消費を実現した。