2ヶ月前

単眼3D物体検出のための深度ガイダンス畳み込みの学習

Mingyu Ding; Yuqi Huo; Hongwei Yi; Zhe Wang; Jianping Shi; Zhiwu Lu; Ping Luo
単眼3D物体検出のための深度ガイダンス畳み込みの学習
要約

LiDARを使用せずに単一画像から3次元物体検出を行うことは、正確な深度情報の欠如により困難な課題となっています。従来の2次元畳み込みは、3次元物体検出に不可欠な局所的な物体とそのスケール情報を捉えられないため、このタスクには適していません。より良い3次元構造を表現するために、先行研究では通常、2次元画像から推定された深度マップを擬似LiDAR表現に変換し、既存の3次点群ベースの物体検出器を適用しています。しかし、これらの結果は推定された深度マップの精度に大きく依存するため、最適でない性能が得られることがあります。本研究では、擬似LiDAR表現を使用せず、新しい局所畳み込みネットワーク(LCN)である「Depth-guided Dynamic-Depthwise-Dilated LCN (D$^4$LCN)」を提案することで、基本的な2次元完全畳み込みを改善しました。D$^4$LCNでは、フィルターとその受容野が画像に基づく深度マップから自動的に学習され、異なる画像の異なるピクセルに対して異なるフィルターを持つことができます。これにより、D$^4$LCNは従来の2次元畳み込みの制限を克服し、画像表現と3次点群表現とのギャップを縮めています。多数の実験結果は、D$^4$LCNが既存の手法に対して大幅に優れていることを示しています。例えば、KITTIデータセットの中程度設定において、最新手法に対する相対的な改善率は9.1%でした。本研究のコードは https://github.com/dingmyu/D4LCN で公開されています。

単眼3D物体検出のための深度ガイダンス畳み込みの学習 | 最新論文 | HyperAI超神経