2ヶ月前

Pix2Pose: オブジェクトのピクセル単位座標回帰による6次元姿勢推定

Kiru Park; Timothy Patten; Markus Vincze
Pix2Pose: オブジェクトのピクセル単位座標回帰による6次元姿勢推定
要約

RGB画像のみを使用して物体の6次元姿勢を推定することは、遮蔽や対称性などの問題により依然として困難です。また、専門的な知識や特殊なスキャン装置なしで正確なテクスチャを持つ3Dモデルを構築することも難しくあります。これらの問題に対処するために、当研究では新たな姿勢推定手法であるPix2Poseを提案します。この手法は、テクスチャ付きモデルを使用せずに各物体ピクセルの3D座標を予測します。自動エンコーダー・アーキテクチャが設計され、各ピクセルの3D座標と期待される誤差を推定します。これらのピクセルごとの予測値は、複数の段階で2D-3D対応関係を形成し、PnPアルゴリズムとRANSAC反復を使用して直接姿勢を計算するために利用されます。当手法は、生成敵対ネットワーク訓練における最近の進歩を利用して遮蔽部分を正確に再現するため、遮蔽に対して堅牢です。さらに、対称物体を取り扱うために新しい損失関数であるトランスフォーマー損失(transformer loss)が提案されています。この損失関数は予測値を最も近い対称姿勢へと誘導することで効果的に機能します。3つの異なるベンチマークデータセットにおいて、対称および遮蔽された物体に対する評価を行い、当手法がRGB画像のみを使用した場合でも既存の最先端技術を超えることを示しています。注:「生成敵対ネットワーク訓練」は一般的に「Generative Adversarial Training」の訳であり、「トランスフォーマー損失」は新規性のある用語であるため括弧内に原文を記載しました。

Pix2Pose: オブジェクトのピクセル単位座標回帰による6次元姿勢推定 | 最新論文 | HyperAI超神経