
要約
自動運転分野において、車両側とインフラストラクチャ側のモノクローラル3D検出は、それぞれ重要な研究課題である。センサの設置状況や焦点距離の多様性により、研究者たちは異なる事前知識に基づいたアルゴリズム構築という課題に直面している。本論文では、ピッチ角および焦点距離の多様性を考慮し、統一的な最適化目標として「正規化深度(normalized depth)」を提案する。これにより、車両側とインフラストラクチャ側の3D検出問題を統一的に取り扱うことが可能となった。さらに、モノクローラル3D検出の精度を向上させるために、障害物の3D正規化キューブ深度(3D normalized cube depth)を導入し、深度情報の学習を促進する。本研究では、深度情報の豊富さが車両側およびインフラストラクチャ側の検出性能に大きな影響を与えると仮定している。より豊かな深度ヒントを持つことで、モデルはより優れた空間知識を学習可能となり、3D正規化キューブ深度は十分な深度ヒントを提供する。広範な実験により、本手法の有効性が実証された。追加の情報の導入なしに、本手法(MonoUNI)は、インフラストラクチャ側のRope3DおよびDAIR-V2X-I、車両側のKITTIおよびWaymo、およびクロスデータセット評価用のnuScenesを含む、5つの広く用いられているモノクローラル3D検出ベンチマークにおいて、最先端の性能を達成した。