
要約
透明物体は私たちの日常生活において一般的であり、自動化された生産ラインで頻繁に取り扱われています。これらの物体に対する堅牢なビジョンベースのロボット把持と操作は、自動化にとって有益です。しかし、現在の大多数の把持アルゴリズムはこの場合に失敗します。なぜなら、それらは深度画像に大きく依存しており、通常の深度センサは光の反射や屈折により透明物体の正確な深度情報を生成できないからです。本研究では、この問題に対処するために、透明物体の深度補完用の大規模実世界データセットを提供します。当該データセットには、130以上の異なるシーンから得られた57,715枚のRGB-D画像が含まれています。我々のデータセットは、多様で混雑したシーンにおける地面真深度情報、表面法線ベクトル、透明マスクを初めて大規模かつ実世界で提供するものです。クロスドメイン実験では、当該データセットがより汎用的であり、モデルに優れた汎化能力をもたらすことが示されています。さらに、我々はRGB画像と不正確な深度マップを入力として受け取り、精緻化された深度マップを出力するエンドツーエンドの深度補完ネットワークを提案します。実験結果は、当該手法が以前の研究よりも優れた効果性、効率性および堅牢性を持つことを示しており、限られたハードウェアリソース下でも高解像度画像を処理できることが確認されています。実際のロボット実験では、当該手法が新しい透明物体への堅牢な把持にも適用可能であることが示されました。全データセットおよび当該手法はwww.graspnet.net/transcgで公開されています。