9日前

動的シーンの時系列ビュー合成：マルチプレーン画像を用いた3Dオブジェクト運動推定による実現

Nagabhushan Somraj, Pranali Sancheti, Rajiv Soundararajan

要約

低性能計算デバイス上で高フレームレート動画をグラフィカルにレンダリングする課題は、仮想現実（VR）アプリケーションにおけるユーザー体験を向上させるために、将来のフレームを周期的に予測する手法によって解決できる。本研究では、時系列ビュー合成（Temporal View Synthesis: TVS）という問題を通じてこの課題に取り組む。TVSの目的は、過去のフレームおよび過去と次のフレームにおけるヘッドポーズをもとに、次のフレームを予測することにある。本研究では、ユーザーと物体の両方が動いている動的シーンにおけるTVSに焦点を当てる。我々は、ユーザーの運動と物体の運動を分離することで、利用可能なユーザー運動情報を効果的に活用するためのフレームワークを設計した。物体の運動は、過去のフレームにおける3次元物体運動を分離・推定し、その運動を外挿することで予測する。シーンの3次元表現としてマルチプレーン画像（Multi-Plane Image: MPI）を採用し、物体の運動をMPI表現における対応点間の3次元変位としてモデル化する。MPIの疎な特徴を考慮しつつ運動を推定するため、部分畳み込み（partial convolutions）およびマスク付き相関層（masked correlation layers）を導入し、対応点を推定する。得られた物体の運動を、与えられたユーザーまたはカメラの運動と統合することで、次のフレームを生成する。カメラおよび物体の運動によって露出した領域（非可視領域）を補完するため、新たな不透明領域補完モジュール（disocclusion infilling module）を用いる。本研究では、フルHD解像度の800本の動画から構成される、動的シーンにおけるTVS用の新しい合成データセットを構築した。本研究データセットおよびMPI Sintelデータセットにおける実験により、既存のすべての手法を上回る性能を示した。