2ヶ月前
単眼3D物体検出におけるローカライゼーション誤差の探究
Ma, Xinzhu ; Zhang, Yinmin ; Xu, Dan ; Zhou, Dongzhan ; Yi, Shuai ; Li, Haojie ; Ouyang, Wanli

要約
単眼画像から3次元バウンディングボックスを推定することは、自動運転において重要な要素であり、この種のデータからの正確な3次元物体検出は非常に困難です。本研究では、詳細な診断実験を通じて各サブタスクがもたらす影響を定量的に評価し、「位置特定誤差」が単眼3次元検出を制限する主要因であることを発見しました。さらに、位置特定誤差の背後にある理由を探り、それらが引き起こす可能性のある問題を分析し、3つの戦略を提案します。第一に、2次元バウンディングボックスの中心と3次元物体の射影中心とのずれを見直します。これは低位置特定精度につながる主要因です。第二に、既存の技術を使用して遠隔物体を正確に位置特定することはほとんど不可能であり、これらのサンプルは学習済みネットワークを誤導する可能性があることを観察しました。これに対処するために、このようなサンプルを訓練セットから削除することで検出器全体の性能向上を目指します。最後に、物体サイズ推定用の新しい3D IoU指向損失関数(`localization error'には影響を受けない)を提案します。私たちはKITTIデータセットで広範な実験を行い、提案手法はリアルタイム検出を達成し、従来の手法よりも大幅に優れた性能を示しました。コードは以下のURLで公開されます:https://github.com/xinzhuma/monodle。注:「IoU」(Intersection over Union)は一般的な用語として使用していますが、「3D IoU」については日本語でも「3D IoU」と表記されることが多いのでそのまま使用しています。「位置特定誤差」(localization error)も同様に日本語で表現しています。