2ヶ月前

BB8: 部分遮蔽に耐える、スケーラブルで精度の高い3D姿勢予測手法 - 深度情報を使わない難易度の高い物体向け

Mahdi Rad; Vincent Lepetit
BB8: 部分遮蔽に耐える、スケーラブルで精度の高い3D姿勢予測手法 - 深度情報を使わない難易度の高い物体向け
要約

色画像のみを使用した3次元物体検出および姿勢推定の新手法を紹介します。まず、部分的な遮蔽や複雑な背景が存在する場合でも、セグメンテーションを利用して対象物体を2次元で検出します。最近のパッチベースの手法とは異なり、我々は「全体的」アプローチに依存しています:検出した物体に対して、その3次元バウンディングボックスのコーナーの2次元投影を予測するように訓練された畳み込みニューラルネットワーク(CNN)を適用します。しかし、これは最近のT-LESSデータセットの物体には十分ではありません:これらの物体は回転対称軸を持ち、異なる姿勢での同一物体の2つの画像の類似性がCNNの訓練を困難にします。この問題を解決するために、訓練に使用される姿勢範囲を制限し、実行時に姿勢範囲を識別する分類器を導入することで対処します。また、予測された姿勢を精緻化するオプションの追加ステップも利用しています。LINEMODデータセットにおいて、我々はRGBフレームの正しく登録された割合を73.7%から89.3%まで向上させました。さらに、色画像のみを使用してOcclusionデータセットでの結果を報告した初めての研究となりました。T-LESSデータセットのいくつかのシーケンスにおいて平均的にPose 6D基準に適合するフレーム数は54%であり、同じシーケンスで色と深度情報を両方使用した最先端手法(67%)と比較しても競争力のある結果を得ています。本手法はスケーラブルであり、単一のネットワークで複数の物体に対する同時訓練が可能です。

BB8: 部分遮蔽に耐える、スケーラブルで精度の高い3D姿勢予測手法 - 深度情報を使わない難易度の高い物体向け | 最新論文 | HyperAI超神経