9日前

動的シーンの時系列ビュー合成:マルチプレーン画像を用いた3Dオブジェクト運動推定による実現

Nagabhushan Somraj, Pranali Sancheti, Rajiv Soundararajan
動的シーンの時系列ビュー合成:マルチプレーン画像を用いた3Dオブジェクト運動推定による実現
要約

低性能計算デバイス上で高フレームレート動画をグラフィカルにレンダリングする課題は、仮想現実(VR)アプリケーションにおけるユーザー体験を向上させるために、将来のフレームを周期的に予測する手法によって解決できる。本研究では、時系列ビュー合成(Temporal View Synthesis: TVS)という問題を通じてこの課題に取り組む。TVSの目的は、過去のフレームおよび過去と次のフレームにおけるヘッドポーズをもとに、次のフレームを予測することにある。本研究では、ユーザーと物体の両方が動いている動的シーンにおけるTVSに焦点を当てる。我々は、ユーザーの運動と物体の運動を分離することで、利用可能なユーザー運動情報を効果的に活用するためのフレームワークを設計した。物体の運動は、過去のフレームにおける3次元物体運動を分離・推定し、その運動を外挿することで予測する。シーンの3次元表現としてマルチプレーン画像(Multi-Plane Image: MPI)を採用し、物体の運動をMPI表現における対応点間の3次元変位としてモデル化する。MPIの疎な特徴を考慮しつつ運動を推定するため、部分畳み込み(partial convolutions)およびマスク付き相関層(masked correlation layers)を導入し、対応点を推定する。得られた物体の運動を、与えられたユーザーまたはカメラの運動と統合することで、次のフレームを生成する。カメラおよび物体の運動によって露出した領域(非可視領域)を補完するため、新たな不透明領域補完モジュール(disocclusion infilling module)を用いる。本研究では、フルHD解像度の800本の動画から構成される、動的シーンにおけるTVS用の新しい合成データセットを構築した。本研究データセットおよびMPI Sintelデータセットにおける実験により、既存のすべての手法を上回る性能を示した。

動的シーンの時系列ビュー合成:マルチプレーン画像を用いた3Dオブジェクト運動推定による実現 | 最新論文 | HyperAI超神経