8ヶ月前

概要

単眼3D物体検出は、自動運転において重要な課題であり、同時に困難を伴っています。既存の手法のいくつかでは、市販の深度推定器から得られる深度情報を活用して3D検出を支援していますが、不正確な深度事前情報により追加的な計算負荷と限られた性能向上に苦しみます。これを緩和するため、私たちはMonoDTRと呼ばれる新しいエンドツーエンドの深度認識変換ネットワークを提案します。このネットワークは主に2つのコンポーネントで構成されています：(1) 補助的な監視下で追加の計算を必要とせずに深度認識特徴量を暗黙的に学習するDepth-Aware Feature Enhancement (DFE) モジュール、および (2) 全体的に文脈認識と深度認識特徴量を統合するDepth-Aware Transformer (DTR) モジュールです。さらに、従来のピクセル単位での位置エンコーディングとは異なり、新しいdepth positional encoding (DPE) を導入し、変換器に深度位置情報を注入します。私たちが提案するこれらの深度認識モジュールは、既存の画像のみを使用した単眼3D物体検出器に簡単に組み込むことができ、性能向上に寄与します。KITTIデータセットにおける広範な実験結果は、私たちの手法が以前の最先端の単眼ベースの方法よりも優れており、リアルタイム検出を達成できることを示しています。コードは https://github.com/kuanchihhuang/MonoDTR で入手可能です。

ソースPDF コードを表示