
초록
최근 10년 동안 딥 러닝은 단일 카메라 이미지에서 인간의 머리 자세를 예측하는 데 매우 성공적이었습니다. 그러나 야외 환경에서의 입력에 대해서는 연구 커뮤니티가 주로 반합성적 특성을 가진 단일 학습 데이터셋인 300W-LP에 의존하고 있으며, 이에 대한 대체 옵션이 많지 않습니다. 본 논문은 이러한 데이터를 점진적으로 확장하고 개선하여 증강 및 합성 전략을 통해 달성할 수 있는 성능을 탐구하는 데 초점을 맞추고 있습니다. 모델링 측면에서는 불확실성 추정을 포함한 새로운 다중태스크 머리/손실 설계를 제안합니다. 전체적으로, 이렇게 얻어진 모델들은 크기가 작고 효율적이며, 완전한 6자유도(6 DoF) 자세 추정에 적합하며 매우 경쟁력 있는 정확도를 보입니다.