
要約
単一のRGBカメラを用いて環境内の物体の3次元位置および姿勢を推定することは、低コストな都市部における自律走行車両およびモバイルロボットにおいて、重要な課題でありながらも極めて困難なタスクである。現在の大多数のアルゴリズムは、一般的な6次元物体姿勢推定に由来する2D-3D対応関係における幾何的制約に基づいている。本研究では、まず走行シーンにおける3次元検出において、地面平面が深度推論に新たな手がかりを提供することを明らかにした。この観察に基づき、3次元アンカーの処理を改善するとともに、深層学習フレームワーク内において、このようなアプリケーション特有の事前知識を最大限に活用できる新たなニューラルネットワークモジュールを提案した。さらに、提案モジュールを統合した効率的なニューラルネットワークを用いた3次元物体検出手法を導入した。また、単眼深度推定に特化したニューラルネットワークを用いて、提案モジュールの有効性をさらに検証した。提案する2つのネットワークは、それぞれKITTI 3D物体検出および深度推定ベンチマークにおいて、最先端の性能を達成した。コードは、https://www.github.com/Owen-Liuyuxuan/visualDet3D にて公開される予定である。