2ヶ月前

M3D-RPN: 単眼3次元領域提案ネットワークによる物体検出

Brazil, Garrick ; Liu, Xiaoming
M3D-RPN: 単眼3次元領域提案ネットワークによる物体検出
要約

3Dで世界を理解することは、都市での自動運転において重要な要素です。一般的に、高価なLiDARセンサとステレオRGB画像の組み合わせが、成功した3D物体検出アルゴリズムにとって不可欠でした。一方で、単眼画像のみを使用する方法は性能が大幅に低下します。本研究では、このギャップを縮めるために、単眼3D検出問題を独立した3D領域提案ネットワークとして再定式化することを提案します。2Dと3Dの視点の幾何学的な関係を利用することで、3Dボックスが画像空間で生成された熟知され且つ強力な畳み込み特徴量を利用することができるようになります。さらに、困難な3Dパラメータ推定に対処するために、位置依存の特徴量開発を可能にする深さ認識畳み込み層(depth-aware convolutional layers)を設計しました。これにより、3Dシーン理解の向上が実現されます。単眼3D検出に関する先行研究と比較して、当方法は外部ネットワークやデータ、複数段階に依存せず、提案された3D領域提案ネットワークのみで構成されています。M3D-RPNは、KITTI都市自動運転データセット内の単眼3D物体検出タスクと鳥瞰図タスクの両方において性能を大幅に向上させることができます。また、共有マルチクラスモデルを効率的に使用しています。

M3D-RPN: 単眼3次元領域提案ネットワークによる物体検出 | 最新論文 | HyperAI超神経