
本論文では、単一のRGB-Dフレームを入力として、実世界におけるカテゴリレベルの9D姿勢推定問題に取り組んでいます。実際の9D姿勢の監督データを使用することは手間がかかるだけでなく誤差も生じやすく、また未知のシナリオへの汎化能力に欠けます。さらに、カテゴリレベルの姿勢推定は、テスト時に未知の物体にも汎化できる方法が必要であり、これは非常に困難な課題です。従来のポイントペア特徴量(PPFs)から着想を得て、本論文では新たなカテゴリレベルのPPF(Category-level PPF: CPPF)投票手法を設計し、実世界での正確で堅牢かつ汎化可能な9D姿勢推定を達成することを目指しています。堅牢な姿勢推定を得るためには、物体上に多数のポイントペアをサンプリングし、各ペアに対してモデルが物体中心、向き、スケールに関する必要なSE(3)不変投票統計値を予測します。さらに、ノイジーなポイントペアサンプルを排除し最終的な予測を生成するため、新たな粗い段階から細かい段階への投票アルゴリズムを提案しています。向き投票プロセスにおける偽陽性を排除するために、各サンプリングされたポイントペアに対して補助的な二値判別分類タスクが導入されています。実世界での物体検出を行うために、幾何学的に姿勢が曖昧な物体以外は合成点群のみで訓練するというsim-to-realパイプラインを慎重に設計しました。この場合においては、色情報を利用してこれらの姿勢を明確化します。標準ベンチマークでの結果は、現行の最先端手法と同等の性能が得られることを示しており、広範囲な実験により当手法がノイズに対して堅牢であることが確認されるとともに、極めて困難な状況下でも有望な結果を与えることが示されています。当研究に関連するコードは以下のURLで公開されています。https://github.com/qq456cvb/CPPF