
動画予測は、過去のフレームを用いて将来のフレームを生成するピクセルレベルのタスクであり、動画内には物体の重なりやシーンの遮蔽(occlusion)といった連続的かつ複雑な運動が頻繁に存在するため、このタスクは大きな課題を抱えている。従来の手法は、長期的な時系列的動態を適切に捉えられないか、遮蔽マスクを適切に処理できないという問題を抱えていた。これらの課題を解決するために、本研究では「FFINet(Fully Convolutional Fast Fourier Inception Networks)」と呼ばれる動画予測用の完全畳み込み型ネットワークを提案する。FFINetは、遮蔽領域の補間を行う「遮蔽補間器(occlusion inpainter)」と、時空間的な変化を学習する「時空間変換器(spatiotemporal translator)」という2つの主要なモジュールから構成されている。前者は高速フーリエ畳み込みを採用することで受容野を拡大し、幾何学的に複雑な構造を持つ欠損領域(遮蔽領域)を高精度に補間可能にしている。後者では、スタックされたフーリエ変換インセプションモジュールを用いて、グループ畳み込みにより時系列の進化を学習し、チャネルごとのフーリエ畳み込みにより空間的な動きを捉えることで、局所的かつグローバルな時空間特徴を同時に表現する。これにより、より現実的で高品質な将来フレームの生成が可能となる。モデルの最適化には、真値フレームと復元フレームの間の平均二乗誤差を最小化する「復元損失(recovery loss)」を目的関数に導入している。Moving MNIST、TaxiBJ、Human3.6M、Caltech Pedestrian、KTHの5つのベンチマークにおける定量的および定性的な実験結果から、本手法の優位性が明確に示された。本研究の実装コードはGitHubにて公開されている。