11日前
単眼3Dオブジェクト検出にはPseudo-Lidarが必要か?
Dennis Park, Rares Ambrus, Vitor Guizilini, Jie Li, Adrien Gaidon

要約
単一画像からの3D物体検出に関する最近の進展は、モノクロカメラからの深度推定を活用して3Dポイントクラウドを生成し、カメラを擬似LiDARセンサに変換する手法に依存している。このような二段階検出器は、中間段階の深度推定ネットワークの精度に依存しており、大規模な自己教師学習により手動ラベルなしでその性能を向上させることができる。しかし、これらはエンド・トゥ・エンド手法に比べて過学習を起こしやすく、構造が複雑である上に、LiDARベースの検出器と比較して性能ギャップは依然として大きい。本研究では、擬似LiDAR手法が持つ深度事前学習の利点を享受しつつも、その欠点を回避する、エンド・トゥ・エンドかつ単段階のモノクロ3D物体検出器DD3Dを提案する。本研究のアーキテクチャは、深度推定と3D検出の間での効果的な情報伝達を可能に設計されており、ラベルなしの事前学習データ量に応じてスケーラブルである。本手法は、2つの挑戦的なベンチマークにおいて最先端の性能を達成し、KITTI-3Dベンチマークにおいて車両(Cars)と歩行者(Pedestrians)のそれぞれで16.34%および9.28%のAPを記録するとともに、NuScenesデータセットでは41.5%のmAPを達成した。