
要約
本研究では、事前に観測されていない環境へ効果的に転移可能な物体カテゴリ向けの新たな姿勢推定モデルを提案する。従来の姿勢推定用深層畳み込みネットワーク(CNN)は、物体検出、姿勢推定、3次元再構成などを目的として特別に構築されたデータセット上で訓練および評価されることが一般的であり、これには大量の学習データが必要となる。本研究では、少量のデータで訓練可能であり、一般的な中間層表現(例:表面法線推定や再照明推定)を基盤とする姿勢推定モデルを提案する。これらの中間層表現は、姿勢情報や物体ラベルを必要とせずに大規模データセット上で事前学習されている。その後、物体マスクと輪郭抽出(silhouette retrieval)を活用した小型のCNNニューラルネットワークにより予測結果を精緻化する。提示した手法は、Pix3Dデータセット(\cite{pix3d})において優れた性能を達成し、学習データの25%しか利用できない条件下でも、既存モデルに対して約35%の性能向上を実現した。本研究では、このアプローチが汎化能力および新規環境への転移性能において優れていることを示した。この目的のため、挑戦的なアクティブビジョンデータセット(Active Vision Dataset \cite{Ammirato2017ADF})において一般的に遭遇する家具カテゴリ向けに、新たな姿勢推定ベンチマークを導入し、Pix3Dデータセット上で訓練されたモデルの性能を評価した。