
要約
3Dで物理世界を認識することは、自動運転アプリケーションにとって基本的な要素です。時間的な動きは、人間の視覚において検出、追跡、深度認識に不可欠なリソースですが、現代の3D物体検出器ではこれらの特徴が十分に活用されていません。本研究では、単眼ビデオに基づく3D物体検出のために新しい手法を提案し、運動学的動きを慎重に利用して3D位置特定の精度を向上させます。具体的には、物体の向きの新しい分解方法と自己バランス型3D信頼度を提案します。両成分が我々の運動学モデルが効果的に動作するためには重要であることを示しています。総合的に、単一のモデルのみを使用することで、単眼ビデオから3D運動学を効率的に活用し、3D物体検出における全体的位置特定精度を向上させるとともに、シーン動態(自己運動と個々の物体速度)の有用な副産物も生成します。我々はKITTI自動運転データセットにおいて、単眼3D物体検出および鳥瞰図タスクで最先端の性能を達成しました。