7日前
ガウスベースの把持表現を用いた軽量な畳み込みニューラルネットワークによるロボット把持検出
Hu Cao, Guang Chen, Zhijun Li, Jianjie Lin, Alois Knoll

要約
深層学習の手法は、ロボットの把持検出性能の向上において優れた成果を上げている。しかし、一般的な物体検出に用いられる深層学習手法は、ロボットの把持検出には適していない。現在の主流となる物体検出器は、高い精度と高速な推論速度の両立を達成することが困難である。本論文では、実際の把持シーンを表すnチャネル入力画像からロボットの把持姿勢推定を行うための、効率的かつ頑健な完全畳み込みニューラルネットワーク(Fully Convolutional Neural Network: FCN)モデルを提案する。提案手法は、一段階で把持検出を行う軽量な生成的アーキテクチャである。具体的には、ガウスカーネルに基づく把持表現を導入し、トレーニングサンプルを符号化することで、把持中心点の信頼度を最大化する原理を実現している。さらに、マルチスケール情報の抽出と特徴の識別能の向上を目的として、把持検出アーキテクチャのボトルネック部に受容 field block(Receptive Field Block: RFB)を組み込んでいる。また、ピクセルアテンションとチャネルアテンションを統合することで、ノイズ特徴を抑制し、把持対象の特徴を強調しながら、形状やサイズが異なるコンテキスト情報を自動的に重み付け融合する能力を獲得している。コーン大学(Cornell)およびジャカール(Jacquard)の2つの公開把持データセットにおける広範な実験により、本手法が精度と推論速度のバランスにおいて最先端の性能を達成することが実証された。他の優れたアルゴリズムと比較して、ネットワークサイズは1桁小さく抑えつつ、Cornellデータセットでは98.9%、Jacquardデータセットでは95.6%という高い精度を達成している。