
要約
私たちは、畳み込みニューラルネットワークを基にした、正確かつリアルタイムのロボット把持検出アプローチを提案します。当該ネットワークは、標準的なスライディングウィンドウや領域提案手法を使用せずに、把持可能なバウンディングボックスへの単一ステージ回帰を行います。このモデルは、最先端の手法よりも14パーセントポイント優れ、GPU上で13フレーム毎秒の速度で動作します。また、当該ネットワークは分類も同時に行うため、単一のステップで物体を認識し、適切な把持矩形を見つけることができます。このモデルの改良版では、局所制約予測機構を使用することで、1つの物体に対して複数の把持位置を予測することが可能です。局所制約モデルは特に多様な方法で把持できる物体において著しく性能が向上しています。