2ヶ月前
RoarNet: RegiOn Approximation Refinementに基づく堅牢な3D物体検出
Kiwoo Shin; Youngwook Paul Kwon; Masayoshi Tomizuka

要約
私たちはRoarNetという新しい手法を提案します。この手法は2次元画像と3次元LiDARポイントクラウドから3次元物体検出を行うためのものです。PointNetを基幹ネットワークとして用いた2段階の物体検出フレームワークに基づき、3次元物体検出性能向上のためのいくつかの新規アイデアを提案しています。私たちの手法の第1部であるRoarNet_2Dは、単眼カメラ画像から物体の3次元姿勢を推定し、さらなる調査が必要な場所を概算し、幾何学的に妥当な複数の候補を導き出すことができます。このステップにより、大規模な探索空間で3次元ポイントクラウドを処理する必要がある場合に比べて、実現可能な3次元領域が大幅に絞り込まれます。その後、第2部であるRoarNet_3Dは、候補領域を取り扱い、再帰的な方法で最終的な姿勢を決定するために詳細な推論を行います。PointNetに触発されて開発されたRoarNet_3Dは、データの損失なく直接3次元ポイントクラウドを処理することで精密な検出を実現しています。我々はこの手法をKITTIという3次元物体検出ベンチマークで評価しました。その結果、公開されている最先端の手法と比較してRoarNetが優れた性能を持つことが示されました。特に注目に値するのは、LiDARとカメラが時間同期していない状況下でもRoarNetが最先端の手法を超えることです。これは実際の走行環境において重要な点です。RoarNetはTensorFlowで実装され、事前学習済みモデルと共に公開されています。