
要約
過去のフレームおよび過去のオプティカルフローを条件として用いることで、高解像度動画フレーム予測を行う手法を提案する。従来の手法は、学習された未来のオプティカルフローに従って過去のフレームを再サンプリングする方法、またはピクセルを直接生成する方法に依存している。フローに基づく再サンプリングは、奥行きの欠落(disocclusion)に対処できないため、不十分である。一方、生成モデルは現在のところぼやけた結果をもたらす傾向にある。最近の手法では、入力パッチを予測されたカーネルで畳み込み、ピクセルを合成するアプローチが採用されている。しかし、このような手法はカーネルサイズに応じてメモリ要件が増大するという課題を抱えている。本研究では、動画フレーム予測のための空間的シフト畳み込み(Spatially-Displaced Convolution, SDC)モジュールを提案する。本手法では、各ピクセルについて予測された運動ベクトルとカーネルを学習し、その運動ベクトルによって定義されるソース画像内のシフトされた位置にカーネルを適用することでピクセルを合成する。本手法はベクトルベースとカーネルベースの両方のアプローチの利点を継承しつつ、それぞれの欠点を改善している。我々は、428,000枚のラベルなし1080pのゲーム動画フレームを用いてモデルを学習した。実験の結果、高解像度YouTube-8M動画ではSSIMスコア0.904、Caltech Pedestrian動画では0.918を達成し、最先端の性能を実現した。また、本モデルは大規模な運動を効果的に処理でき、一貫性のある運動を保ちつつ鮮明なフレームを生成することができる。