
要約
物体姿勢推定は、具現化AIおよびコンピュータビジョンにおいて重要な役割を果たし、知能エージェントが周囲の環境を理解し、対話する能力を提供します。カテゴリレベルの姿勢推定の実用性にもかかわらず、現在の手法では部分的に観測されたポイントクラウドに対する多仮説問題に直面しています。本研究では、カテゴリレベルの物体姿勢推定を条件付き生成モデルとして再定義することで、従来の点対点回帰から一歩踏み出した新しい解決策を提案します。スコアベースの拡散モデルを利用し、拡散モデルからサンプリングした候補を二段階プロセスで集約して物体姿勢を推定します。このプロセスは、尤度推定により外れ値を取り除き、その後残った候補の平均プーリングを行います。尤度推定時の高コストな統合プロセスを避けるため、元のスコアベースモデルからエネルギーベースモデルを学習させる代替方法を導入しました。これにより端-to-端(end-to-end)での尤度推定が可能となります。当方針はREAL275データセットにおいて最先端の性能を達成しており、厳格な5d2cmおよび5d5cm指標においてそれぞれ50%と60%を超える結果を得ています。さらに、当方針は微調整なしで類似した対称性を持つ新しいカテゴリへの強力な汎化能力を持ち、物体姿勢追跡タスクにも容易に適応できることを示しています。その結果は現在の最先端基準と同等であることが確認されています。