
要約
低コストな自律エージェント、特に自律走行車両は、周囲環境を認識するために主に単眼3次元物体検出技術を採用している。本論文では、後続タスクに供給するための3次元中間特徴量を生成する3次元中間表現手法を研究している。例えば、得られた3次元特徴量は物体検出に加えて、鳥瞰図(Bird's-Eye-View, BEV)特徴表現を必要とするエンドツーエンド予測や計画処理の入力としても利用可能である。本研究において、従来の手法が潜在空間における物体の暗黙的な姿勢(特に向き)と、ユークリッド空間における明示的な観測姿勢の間に一貫性を保っていないことを見出した。この問題はモデル性能に著しい悪影響を及ぼす可能性がある。これを解決するため、本研究では、暗黙的特徴と明示的特徴の間で姿勢が一貫するよう意図的に設計された、初めて姿勢を意識した単眼物体検出手法を提案する。さらに、画像特徴を正確な3次元位置に効率的にボクセルに変換するための局所レイアテンション機構を導入した。また、連続性を維持しつつ、サイン波符号化関数を上回る性能を発揮する手作業によるガウス位置符号化関数を提案している。実験結果から、本手法は最先端の3次元中間表現手法を3.15%向上させた。KITTILeaderboardにおける単眼手法として、3D検出およびBEV検出の両ベンチマークにおいて、本研究の提出時点での順位で1位を獲得している。