Command Palette
Search for a command to run...
Atlas:ポーズ付き画像からのエンドツーエンド3Dシーン再構成
Atlas:ポーズ付き画像からのエンドツーエンド3Dシーン再構成
Zak Murez Tarrence van As James Bartolozzi Ayan Sinha Vijay Badrinarayanan Andrew Rabinovich
概要
我々は、撮影されたRGB画像群から、カメラの姿勢情報を用いて、切断された符号付き距離関数(TSDF)を直接回帰することで、シーンのエンド・トゥ・エンド3次元再構成を行う手法を提案する。従来の3次元再構成手法は、シーンの完全な3次元モデルを推定する前に、深度マップといった中間表現を用いることが一般的である。本研究では、3次元空間への直接回帰がより効果的であると仮定した。2次元CNNが各画像から独立して特徴量を抽出し、カメラの内部パラメータと外部パラメータを用いて、これらの特徴量をボクセル体積に逆投影・累積する。累積後、3次元CNNが累積された特徴量を精緻化し、TSDF値を予測する。さらに、追加的な計算コストをほとんど増加させることなく、3次元モデルのセマンティックセグメンテーションも得られる。本手法はScannetデータセット上で評価され、従来の最先端手法(深層マルチビュー立体視 followed by 伝統的なTSDF統合)と比較して、定量的および定性的な両面で顕著な性能向上を達成した。また、深度センサを用いた既存手法と比較し、本手法はRGB入力のみで3次元セマンティックセグメンテーションを実現している点で、従来の研究とは異なり、RGB入力のみによる問題解決に挑戦している。