
초록
본 연구에서는 기존에 접한 적 없는 환경으로도 효과적으로 전이 가능한 객체 카테고리에 대한 새로운 자세 추정 모델을 제안한다. 일반적으로 자세 추정을 위한 딥 컨볼루션 네트워크(CNN) 모델은 객체 탐지, 자세 추정 또는 3D 재구성에 특화된 데이터셋에서 학습 및 평가되며, 이는 방대한 양의 학습 데이터를 필요로 한다. 본 연구에서는 소량의 데이터로도 학습이 가능하며, 일반적인 중간 수준 표현(mid-level representations) \cite{taskonomy2018} (예: 표면 법선 추정 및 재조명(re-shading))을 기반으로 설계된 자세 추정 모델을 제안한다. 이러한 중간 수준 표현은 자세 정보나 객체 레이블이 필요 없이 대규모 데이터셋에서 사전 학습된다. 이후, 객체 마스크와 실루엣 검색을 활용하는 소규모 CNN 신경망을 통해 예측 결과를 보정한다. 제안하는 방법은 Pix3D 데이터셋 \cite{pix3d}에서 우수한 성능을 보이며, 학습 데이터의 25%만 사용할 경우 기존 모델 대비 약 35%의 성능 향상을 달성한다. 본 연구는 일반화 능력과 새로운 환경으로의 전이 가능성 측면에서 제안된 방법이 유리함을 보여준다. 이를 위해 우리는 도전적인 Active Vision 데이터셋 \cite{Ammirato2017ADF}에서 흔히 접하는 가구 카테고리에 대한 새로운 자세 추정 벤치마크를 제안하였으며, Pix3D 데이터셋에서 학습된 모델들을 해당 벤치마크에서 평가하였다.