未知の3Dオブジェクトを合成データで学習したMask R-CNNを使用して実際の深度画像からセグメンテーションする

未知物体の深度画像をセグメンテーションする能力は、ロボットの把持や物体追跡のスキル向上に潜在的な貢献が期待されます。最近のコンピュータビジョン研究では、大量の手動ラベリングデータセットが利用可能であれば、Mask R-CNNをRGB画像で特定のカテゴリの物体をセグメンテーションするために訓練できることを示しています。しかし、これらのデータセットを作成することは時間のかかる作業であるため、代わりに合成深度画像を使用して訓練を行いました。多くのロボットが現在深度センサを使用しており、最近の結果は合成深度データでの訓練が実世界に成功裏に転送できる可能性があることを示唆しています。本稿では、自動的なデータセット生成方法を提案し、シミュレーションされた3D CADモデルの山を使用して50,000枚の合成深度画像と320,000個の物体マスクからなる合成訓練データセットを迅速に生成しました。生成されたデータセットに対してドメインランダマイゼーションを使用したMask R-CNNの変種を訓練し、手動ラベリングデータなしでカテゴリ非依存インスタンスセグメンテーションを行う方法を開発しました。この訓練済みネットワーク(以下、Synthetic Depth (SD) Mask R-CNNと呼びます)は、複雑な形状を持つ物体が密集している実際の高解像度深度画像を含むビンに対して評価されました。SD Mask R-CNNはCOCOベンチマークにおいて点群クラスタリングベースラインよりも絶対値で平均精度(Average Precision)15%および平均再現率(Average Recall)20%高い性能を示しました。また、大量の手動ラベリングRGBデータセットで訓練され、実験設定からの実際の画像で微調整されたMask R-CNNと同程度の性能レベルを達成しています。本研究では、インスタンス固有の把持パイプラインにモデルを導入し、そのロボティクス応用における有用性を示しました。コード、合成訓練データセットおよび補足資料はhttps://bit.ly/2letCuE から入手可能です。