키포인트 없이 머리 자세 추정을 위한 효과적인 딥 네트워크

최근 들어 인간의 머리 자세 추정(head pose estimation)은 시각 인식 분야에서 핵심적인 문제로 부상하였으며, 시선 추정(gaze estimation), 가상 현실(virtual reality), 운전자 보조 시스템 등 다양한 컴퓨터 비전 응용 분야에 활용되고 있다. 머리 자세 추정의 중요성에 비추어볼 때, 대규모 카메라 감시 시스템이나 AI 카메라와 같은 얼굴 분석 기반 응용 환경에 배포될 때 계산 비용을 줄이면서도 정확도를 유지하기 위해 소형화된 모델 설계가 필수적이다. 본 연구에서는 이러한 문제를 효과적으로 해결하기 위해 경량화된 모델을 제안한다. 제안하는 방법은 두 가지 주요 단계로 구성된다. 1) 먼저, 합성 데이터셋인 300W-LPA를 이용하여 다수의 테이처 모델(teacher models)을 학습하여 머리 자세에 대한 의사 레이블(pseudo labels)을 생성한다. 2) 이후 ResNet18을 백본(Backbone)으로 하는 아키텍처를 설계하고, 이들 의사 레이블의 앙상블을 활용하여 지식 증류(knowledge distillation) 과정을 통해 제안 모델을 학습한다. 제안 모델의 효과성을 평가하기 위해 AFLW-2000과 BIWI 두 가지 실세계 머리 자세 데이터셋을 사용하였다. 실험 결과, 기존 최고 수준의 머리 자세 추정 기법들과 비교하여 본 모델은 상당한 정확도 향상을 보였다. 더불어, Tesla V100에서 추론 시 실시간 성능을 약 300 FPS로 달성하여 실시간 처리에 적합함을 입증하였다.