マーカーレスカメラからロボットの姿勢推定を用いた自己監督型シミュレーションから実世界への転送

カメラからロボットへの姿勢推定を解決することは、ビジョンベースのロボット制御にとって基本的な要件であり、正確に行うには相当な努力と注意が必要です。従来の手法では、マーカーを使用してロボットを修正する必要がありましたが、その後の深層学習手法により、マーカーレスの特徴抽出が可能となりました。主流の深層学習方法は、3Dアノテーションを取得することが労力のかかる作業であるため、合成データのみを使用し、ドメインランダマイゼーション(Domain Randomization)に依存してシミュレーションと実世界のギャップを埋めています。本研究では、実世界データに対する3Dアノテーションの制約を超えました。私たちはオンラインでのカメラからロボットへのキャリブレーションが可能なエンドツーエンドの姿勢推定フレームワークを提案し、ラベル付けされていない実世界データに対して訓練を拡大する自己監督型訓練方法を開発しました。当該フレームワークは深層学習と幾何学的ビジョンを組み合わせてロボットの姿勢を解くことができ、パイプライン全体が微分可能です。Camera-to-Robot Pose Estimation Network (CtRNet) の訓練においては、前景セグメンテーションと微分レンダリングを利用し、画像レベルでの自己監督を行います。姿勢予測はレンダラーを通じて可視化され、入力画像との画像損失が逆伝播されてニューラルネットワークの訓練に利用されます。2つの公開された実世界データセットにおける実験結果は、既存の手法よりも当社アプローチの有効性を確認しています。また、当社フレームワークをビジュアルサーボシステムに統合し、自動化タスクにおけるリアルタイムで高精度なロボット姿勢推定の可能性を示しています。