
要約
深層学習は、コンピュータビジョンと自然言語処理の分野で大幅な進歩をもたらしました。ロボット工学においても深層学習を用いたいくつかの成功例がありますが、広く採用されているわけではありません。本論文では、新しい物体に対して並行プレート型ロボットグリッパーの最適な把持姿勢を予測する革新的なロボット把持検出システムについて述べます。このシステムは、シーンのRGB-D画像を使用して、最適な把持構成を予測します。提案されたモデルは、深層畳み込みニューラルネットワーク(CNN)を用いてシーンから特徴量を抽出し、その後浅い畳み込みニューラルネットワークを使用して対象物体の把持構成を予測します。当該多モーダルモデルは、標準的なコーネル把持データセットで89.21%の精度を達成し、リアルタイム速度で動作します。これは、ロボット把持検出における最先端技術を再定義しています。