
要約
近年、単一のRGB画像から剛体オブジェクトの姿勢推定を行うタスクにおいて、顕著な進展が見られているが、部分的遮蔽(partial occlusions)に対するロバスト性を確保することは依然として困難な課題である。特にデータが限られる状況下では、レンダリングを用いた姿勢の微調整(pose refinement)が、より良い結果を得るための有望な手法として注目されている。本論文では、姿勢の微調整に注目し、部分的遮蔽の状況下で現在の最先端技術をさらに進展させる方法を提示する。提案手法は、観測画像とレンダリング画像の間の再投影誤差(reprojection error)を推定するという簡略化された学習タスクに基づいている。具体的には、畳み込みニューラルネットワーク(CNN)を、完全に合成データ上、あるいは合成データと実データの混合データ上で学習させることで検証を行った。その結果、遮蔽を含むLINEMODベンチマーク(Occlusion LINEMOD benchmark)において、3つの評価指標のうち2つで現在の最先端手法を上回る性能を達成し、残りの1つの指標においても同等の性能を示した。