
要約
ロボット操作における掴み可能な位置を予測するための深層学習アーキテクチャが提案された。この手法は、物体が存在しない、1つの物体が見える、あるいは複数の物体が見えるといったさまざまな状況を考慮している。回帰ではなく、帰無仮説競合(null hypothesis competition)を用いた学習問題の定式化により、赤・緑・青および深度(RGB-D)画像を入力とする深層ニューラルネットワークは、単一の物体または複数の物体に対して、一度の推論で複数の掴み候補を予測することができる。コーン大学データセットにおける評価では、画像単位の分割(imagewise split)と物体単位の分割(object-wise split)において、それぞれ96.0%および96.1%の精度を達成し、既存の最先端手法を上回った。複数物体を含むデータセットでの評価により、本アーキテクチャの汎化能力が確認された。家庭用物品を対象とした実機実験では、掴み位置の推定精度が96.0%、掴み成功確率が89.0%を達成した。リアルタイム処理では、画像入力から計画生成まで0.25秒未満で実行可能である。