
要約
本稿では、RGB-Dシーン内の物体に対して3次元バウンディングボックスを配置する手法を提示する。本手法は、2次元情報の最大限の活用により、3次元空間における探索空間を迅速に削減する。これにより、最先端の2次元物体検出技術の恩恵を享受できる。その後、3次元情報を利用して物体の向き、位置、スコアをバウンディングボックスに適用する。各物体の向きは、法線情報を利用する従来の手法を独立して用いて推定する。3次元空間における物体の位置およびサイズは、マルチレイヤーパーセプトロン(MLP)を用いて学習する。最終段階では、シーン内の物体クラス間の関係性に基づいて検出結果を精緻化する。有名なSUN RGB-Dデータセットを用いた広範な実験により、本手法は、ほぼ完全に疎な3次元領域で動作する最先端の検出手法と比較して、3次元物体の検出がはるかに高速(1枚あたり4.1秒)であり、4.7倍遅い手法よりも3 mAP高い性能を発揮するとともに、2桁以上遅い手法と同等の性能を達成した。本研究は、特に3次元入力が疎な場合において、2次元駆動型の3次元物体検出がさらなる探求の余地を有することを示唆している。