Command Palette
Search for a command to run...
PoseCNN:複雑なシーンにおける6次元物体ポーズ推定のための畳み込みニューラルネットワーク
PoseCNN:複雑なシーンにおける6次元物体ポーズ推定のための畳み込みニューラルネットワーク
Xiang Yu Schmidt Tanner Narayanan Venkatraman Fox Dieter
概要
既知の物体の6次元(6D)姿勢推定は、ロボットが現実世界と相互作用する上で重要である。この問題は、物体の多様性や、物体間の重なりや遮蔽によって引き起こされるシーンの複雑さのため、非常に困難である。本研究では、6D物体姿勢推定を目的とした新たな畳み込みニューラルネットワーク「PoseCNN」を提案する。PoseCNNは、画像内における物体中心の位置を特定することで3次元並進を推定し、カメラからの距離を予測する。また、3次元回転は四元数(quaternion)表現への回帰によって推定する。さらに、対称物体を適切に扱えるよう設計された新しい損失関数を導入している。また、本研究では、6D物体姿勢推定を目的とした大規模な動画データセット「YCB-Videoデータセット」を提供する。このデータセットは、YCBデータセットに含まれる21種類の物体を、92本の動画、合計133,827フレームで観測したものであり、正確な6D姿勢ラベルを提供する。我々は、YCB-VideoデータセットおよびOccludedLINEMODデータセット上で広範な実験を行い、PoseCNNが遮蔽に対して高いロバスト性を示し、対称物体の処理も可能であり、カラー画像のみを入力として用いることで高精度な姿勢推定を実現できることを確認した。さらに、深度情報を利用して姿勢を refined する場合、本手法は挑戦的なOccludedLINEMODデータセットにおいて、最先端の性能を達成した。本研究のコードおよびデータセットは、https://rse-lab.cs.washington.edu/projects/posecnn/ にて公開されている。