PoseCNN: クラターシーンにおける6Dオブジェクトポーズ推定のための畳み込みニューラルネットワーク

既知の物体の6次元姿勢を推定することは、ロボットが現実世界と対話するために重要です。この問題は、物体の多様性や、物体間の散乱と遮蔽によって引き起こされるシーンの複雑さにより難易度が高くなります。本研究では、6次元物体姿勢推定用の新しい畳み込みニューラルネットワークであるPoseCNNを導入します。PoseCNNは、画像内の物体の中心位置を特定し、カメラからの距離を予測することで、物体の3次元移動を推定します。また、クォータニオン表現への回帰により、物体の3次元回転を推定します。さらに、対称的な物体を取り扱うための新しい損失関数も導入しています。また、大規模なビデオデータセットであるYCB-Videoデータセットを提供します。当該データセットには、92本のビデオ(133,827フレーム)で観察されたYCBデータセットに属する21つの物体の正確な6次元姿勢情報が含まれています。我々はYCB-VideoデータセットおよびOccludedLINEMODデータセットにおいて広範な実験を行い、PoseCNNが遮蔽に対して非常に堅牢であり、対称的な物体を取り扱うことができること、そしてカラー画像のみを使用して正確な姿勢推定を行うことができる点を示しました。深度データを使用して姿勢をさらに精緻化すると、我々の手法は困難なOccludedLINEMODデータセットにおいて最先端の結果を得ています。当研究におけるコードとデータセットは https://rse-lab.cs.washington.edu/projects/posecnn/ から入手可能です。注:「散乱」(clutter)という言葉は通常「散らばり」や「混雑」などを意味しますが、ここでは技術的な文脈で使用されているため、「散乱」と訳しました。「クォータニオン」(quaternion)は四元数のことです。