11日前

単一画像からの3Dケン・バーンズ効果

Simon Niklaus, Long Mai, Jimei Yang, Feng Liu
単一画像からの3Dケン・バーンズ効果
要約

ケン・バーンズ効果(Ken Burns effect)は、仮想カメラのスキャンおよびズーム操作を用いて静止画像にアニメーション効果を加える手法である。さらに視差(parallax)を導入することで、3D版ケン・バーンズ効果が実現され、よりインパクトのある映像表現が可能となる。しかし、このような効果を手作業で作成するには時間と高度な編集スキルが要求される。既存の自動化手法では、異なる視点から撮影された複数の入力画像が必要となるという制約がある。本論文では、単一の画像から3Dケン・バーンズ効果を合成するフレームワークを提案する。本フレームワークは、完全自動モードと、ユーザーがカメラの動きを制御できるインタラクティブモードの両方をサポートしている。まず、本フレームワークは、ビュー合成タスクに適したシーン深度を推定する深度推定パイプラインを活用する。従来の深度推定手法が抱える幾何学的歪み、意味的歪み、深度境界の不正確さといった課題に対処するため、我々は意味認識型ニューラルネットワークを設計し、セグメンテーションに基づく深度調整プロセスと組み合わせ、オブジェクト境界における正確な深度推定を実現するための精調ニューラルネットワークを導入している。得られた深度推定結果に基づき、本フレームワークは入力画像を点群(point cloud)にマッピングし、対応するカメラ位置から点群をレンダリングすることで、合成動画フレームを生成する。カメラパスの極端な視点における奥行きの欠落(disocclusions)を補完しつつ、幾何学的・時系列的に整合性のある合成結果を維持するため、コンテキスト認識型の色情報および深度補間(color- and depth-inpainting)を用いて、欠損領域に情報を補完することで、点群のシーン幾何構造を拡張している。多様な画像コンテンツを用いた実験の結果、本手法は現実的な合成結果を実現できることを示した。本研究は、従来の3Dケン・バーンズ効果生成手法に比べ、ユーザーが極めて少ない作業でより優れた結果を得られることを示している。