
要約
6D姿勢推定の解決は、固有の外観と形状の変動や対象間の深刻な隠蔽に対処する上で容易ではなく、特に外部要因による大きな照明条件の変化や制御不能な環境下での取得データの低品質により、さらなる難しさが増しています。本論文では、入力データから6D姿勢およびモデル空間内の3D座標へ稠密に回帰する新しい姿勢推定アルゴリズムW-PoseNetを提案します。つまり、当方の深層ネットワークで学習した姿勢回帰用の局所特徴量は、補助的なタスクとして3D姿勢に敏感な座標への画素単位での対応付けマッピングを明示的に学習することで正規化されます。さらに、画素単位の特徴量の疎なペア組み合わせと画素ペアの姿勢予測に対するソフト投票が設計され、一貫性がないまたは疎な局所特徴量に対する堅牢性を向上させることが目指されています。YCB-VideoおよびLineMODベンチマークにおける実験結果は、提案されたW-PoseNetが最新のアルゴリズムに対して一貫して優れた性能を達成していることを示しています。