2ヶ月前

RTM3D: 自動運転向けモノocular 3D検出のリアルタイム処理

Peixuan Li; Huaici Zhao; Pengfei Liu; Feidao Cao
RTM3D: 自動運転向けモノocular 3D検出のリアルタイム処理
要約

本研究では、単眼カメラによる一発撮影での効率的かつ正確な3次元検出フレームワークを提案します。既存の多くの成功した3D検出器は、3Dバウンディングボックスから2Dボックスへの投影制約を重要な構成要素としています。2Dボックスの4つの辺は4つの制約しか提供せず、2D検出器の小さな誤差でも性能が著しく低下します。これらの手法とは異なり、当方法では画像空間における3Dバウンディングボックスの9つの透視キーポイントを予測し、その後、3Dと2D透視の幾何学的関係を利用して3次元空間での寸法、位置、向きを復元します。この手法により、キーポイントの推定が非常にノイジーであっても物体の特性を安定して予測でき、小型アーキテクチャで高速な検出速度を得ることができます。当方法の学習には外部ネットワークや監督データを必要とせずに物体の3次元特性のみを使用します。当方法は単眼画像の3次元検出において初めてリアルタイムシステムを実現し、KITTIベンチマークで最先端の性能を達成しています。コードは https://github.com/Banconxuan/RTM3D で公開されます。

RTM3D: 自動運転向けモノocular 3D検出のリアルタイム処理 | 最新論文 | HyperAI超神経