
要約
単一の深度画像から3次元ボリュームシーンの占有状態と意味ラベルを推論するためのビュー・ボリューム畳み込みニューラルネットワーク(VVNet)を紹介します。VVNetは、2DビューCNNと3DボリュームCNNを微分可能な射影層で連結しています。単一のRGBD画像が与えられた場合、当方法は2DビューCNNを使用して入力深度画像から詳細な幾何学的特徴を抽出し、その後、射影層を通じて入力深度マップに従ってこれらの特徴を3Dボリュームに投影します。その結果、3DボリュームCNNを用いてシーンの3次元コンテキスト情報を学習し、結果として得られるボリューム占有率と意味ラベルを計算します。2Dおよび3D表現を組み合わせることにより、VVNetは計算コストを効率的に削減し、マルチチャネル高解像度入力からの特徴抽出を可能にし、結果の精度を大幅に向上させます。当方法の有効性と効率性は、合成SUNCGデータセットおよび実際のNYUデータセットにおいて検証され、示されています。