8ヶ月前

概要

単眼3D物体検出手法において、透視投影は広く利用されてきました。この手法は、2Dバウンディングボックスと3D物体の寸法から幾何学的な事前情報を導入し、深度推定の不確実性を低減します。しかし、物体の視覚的表面からの深度誤差により、バウンディングボックスの高さがしばしば実際の投影中心高さを正確に表現できず、これは幾何学的な深度の有効性を損ないます。投影高さの直接予測は2D事前情報の損失を避けられず、複雑なブランチを持つ多深度予測も幾何学的な深度を十分に活用できないという問題があります。本論文では、透視変換不変幾何学誤差を使用して投影式を修正するTransformerベースの単眼3D物体検出手法であるMonoDGP（Monocular Depth-Guided Projection）を提案します。また、幾何学的誤差のメカニズムと効果について体系的に議論し説明し、これは多深度予測の単純かつ効果的な代替手段となります。さらに、MonoDGPは深度ガイドデコーダーと2Dデコーダーを分離し、視覚特徴のみに依存する2Dデコーダーを構築することで、3D検出による干渉を受けずに2D事前情報を提供し、物体クエリを初期化します。また、Transformerデコーダーの入力トークンをさらに最適化および微調整するために、Region Segment Head (RSH) を導入しました。RSHは強化された特徴量とセグメント埋め込みを生成します。当社の単眼手法は追加データなしでKITTIベンチマークにおいて最先端の性能を示しています。コードは https://github.com/PuFanqi23/MonoDGP で公開されています。

ソースPDF