HyperAIHyperAI

Command Palette

Search for a command to run...

MonoDTR: 単眼3D物体検出に深度認識トランスフォーマーを用いた手法

Huang Kuan-Chih ; Wu Tsung-Han ; Su Hung-Ting ; Hsu Winston H.

概要

単眼3D物体検出は、自動運転において重要な課題であり、同時に困難を伴っています。既存の手法のいくつかでは、市販の深度推定器から得られる深度情報を活用して3D検出を支援していますが、不正確な深度事前情報により追加的な計算負荷と限られた性能向上に苦しみます。これを緩和するため、私たちはMonoDTRと呼ばれる新しいエンドツーエンドの深度認識変換ネットワークを提案します。このネットワークは主に2つのコンポーネントで構成されています:(1) 補助的な監視下で追加の計算を必要とせずに深度認識特徴量を暗黙的に学習するDepth-Aware Feature Enhancement (DFE) モジュール、および (2) 全体的に文脈認識と深度認識特徴量を統合するDepth-Aware Transformer (DTR) モジュールです。さらに、従来のピクセル単位での位置エンコーディングとは異なり、新しいdepth positional encoding (DPE) を導入し、変換器に深度位置情報を注入します。私たちが提案するこれらの深度認識モジュールは、既存の画像のみを使用した単眼3D物体検出器に簡単に組み込むことができ、性能向上に寄与します。KITTIデータセットにおける広範な実験結果は、私たちの手法が以前の最先端の単眼ベースの方法よりも優れており、リアルタイム検出を達成できることを示しています。コードは https://github.com/kuanchihhuang/MonoDTR で入手可能です。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています