
要約
最新鋭の3D物体検出器は、画像ベースとLiDARベースの手法間に大きな性能差があるため、LiDARセンサに大きく依存しています。この性能差は、3Dシナリオでの予測表現形成方法によって引き起こされます。当研究で提案する「Deep Stereo Geometry Network(DSGN)」は、微分可能なボリューム表現である3D幾何ボリュームを用いて3D物体を検出し、この性能差を大幅に縮めます。3D幾何ボリュームは、3D規則空間における3D幾何構造を効果的に符号化します。この表現により、我々は深度情報と意味的な手がかりを同時に学習します。初めて本手法では、単段階のステレオベースの3D検出パイプラインを提供し、エンドツーエンドの学習方式で深度を推定しつつ3D物体を検出します。当アプローチは以前のステレオベースの3D検出器(APにおいて約10ポイント高い)を上回り、KITTI 3D物体検出ランキングボード上でいくつかのLiDARベースの手法と同等の性能を達成しています。当研究のコードは公開されており、以下のURLからアクセスできます: https://github.com/chenyilun95/DSGN.