
要約
本稿では、高精度なマルチセンサ3次元物体検出の実現を目指し、複数の関連するタスクを活用する手法を提案する。この目的の下、2Dおよび3D物体検出、地表面推定、深度補完を統合的に処理できるエンド・ツー・エンド学習可能なアーキテクチャを提示する。実験の結果、これらのタスクは互いに補完的であり、異なるレベルでの情報統合を通じてネットワークがより優れた表現を学習することを支援することが明らかになった。特に、本手法はKITTIベンチマークにおいて2D、3D、BEV(鳥瞰図視点)物体検出のすべてで最先端の性能を達成するとともに、リアルタイム処理が可能である。