
要約
私たちは、RGB画像内の物体を検出すると同時にその6次元姿勢を予測するための単一ショットアプローチを提案します。この方法は、複数の段階や複数の仮説を検討する必要がありません。最近提案された同様の単一ショット技術(Kehlら、ICCV'17)は、近似的な6次元姿勢のみを予測し、その後に精緻化が必要ですが、私たちの方法は十分に精度が高く、追加の後処理を必要としません。その結果、Titan X (Pascal) GPU上で50 fpsという高速性能を達成しており、リアルタイム処理に非常に適しています。私たちの手法の鍵となる要素は、YOLOネットワーク設計にインスピレーションを受けた新しいCNNアーキテクチャです。このアーキテクチャは直接的に物体の3Dバウンディングボックスの投影頂点の2D画像位置を予測します。その後、物体の6次元姿勢はPnPアルゴリズムを使用して推定されます。LINEMODおよびOCCLUSIONデータセットにおける単一物体および複数物体の姿勢推定において、すべての手法が後処理なしで使用される場合、私たちのアプローチは他の最近のCNNベース手法よりも大幅に優れています。後処理中には、既存手法の精度向上のために姿勢精緻化ステップを使用できますが、10 fps以下の速度であり、私たち的方法よりも遅いです。