
要約
本論文では、RGB画像から3次元物体検出と6自由度姿勢推定を行う新しい深層学習手法を提案します。当手法はDPOD(Dense Pose Object Detector)と命名され、入力画像と利用可能な3次元モデルの間で密集した多クラスの2D-3D対応マップを推定します。これらの対応点から、PnP(Perspective-n-Point)とRANSAC(RANdom SAmple Consensus)を用いて6自由度の姿勢が計算されます。さらに、初期姿勢推定値に対してカスタムの深層学習ベースのリファインメントスキームを使用してRGB姿勢のリファインメントを行います。我々の結果と多数の関連研究との比較により、多くの対応点がリファインメント前後において高品質な6自由度姿勢を得るために有益であることが示されています。他の手法が主に実際のデータを使用して訓練を行い、合成レンダリングでの訓練を行わないのに対し、我々は合成および実際の訓練データ双方で評価を行い、最近の検出器と比較してリファインメント前後ともに優れた結果を示しています。精度が高い一方で、提案手法はリアルタイム処理も可能です。