
要約
ロボットハンドリングは複雑なタスクにおける基本的なスキルであり、知能の根幹を成すものである。一般的な6自由度(6-DoF)の把持に対して、従来の手法は多くがシーンレベルのセマンティック情報または幾何情報に直接依存しているが、ターゲット指向の把持を含む多様な下流アプリケーションにおける適応性については十分に検討されていない。この課題に応じて、本研究では把持中心の視点から6-DoF把持検出を再考し、シーンレベル把持とターゲット指向把持の両方を柔軟に処理可能な汎用的な把持フレームワークを提案する。本フレームワークであるFlexLoGは、柔軟なガイダンスモジュール(Flexible Guidance Module)と局所把持モデル(Local Grasp Model)から構成される。特に、柔軟なガイダンスモジュールは、グローバルなガイダンス(例:把持ヒートマップ)とローカルなガイダンス(例:視覚的接地)の両方に対応可能であり、さまざまなタスクにおいて高品質な把持を生成することが可能である。一方、局所把持モデルはオブジェクトに依存しない局所的な点群を対象とし、局所的かつ集中的に把持を予測する。実験結果から、本フレームワークはGraspNet-1Billionデータセットの未見のスプリットにおいて、それぞれ18%以上および23%以上の性能向上を達成した。さらに、3つの異なる実環境におけるロボット実験では、95%の成功率を達成した。