MonoDETR: 単眼3D物体検出のための深度ガイド付きTransformer

単眼3D物体検出は、自動運転において長年難題とされてきた課題である。既存の手法の多くは、従来の2D検出器に従ってまず物体の中心位置を特定し、その後近傍の特徴から3D属性を予測する方法を採用している。しかし、局所的な視覚特徴だけを使用することは、シーンレベルでの3D空間構造を理解するのに十分ではなく、遠距離の物体間深度関係を見逃してしまう。本論文では、深度ガイド付きトランスフォーマー(Transformer)を使用した単眼検出の最初のDETRフレームワークであるMonoDETRを提案する。我々はシンプルなトランスフォーマーを深度認識機能を持つように改良し、文脈的な深度ヒントによって全体的な検出プロセスをガイドする。具体的には、物体の外観を捉える視覚エンコーダと並行して、前景深度マップを予測し、非局所的な深度埋め込み(Embedding)を抽出するために専門的な深度エンコーダを導入する。次に、3D物体候補を学習可能なクエリとして定式化し、物体-シーン間の深度相互作用を行うための深度ガイド付きデコーダーを提案する。この方法により、各物体クエリは画像上の深度ガイドされた領域から適応的にその3D属性を推定でき、局所的な視覚特徴に制約されなくなる。KITTIベンチマークにおいて単眼画像を使用した場合、MonoDETRは最先端の性能を達成しており、追加の高密度な深度アノテーションは必要としない。さらに、我々が提案する深度ガイド付きモジュールはnuScenesデータセットでも多視点3D物体検出器の性能向上のためにプラグアンドプレイ可能であり、優れた汎化能力を持っていることを示している。コードは以下のURLで公開されている: https://github.com/ZrrSkywalker/MonoDETR.