11일 전

다중 작업 헤드 포즈 추정 인더와일드

Roberto Valle, José Miguel Buenaposada, Luis Baumela
다중 작업 헤드 포즈 추정 인더와일드
초록

이 연구에서는 이미지 내 헤드 포즈 추정을 위한 딥러닝 기반 다중 작업(multi-task) 접근법을 제안한다. 우리는 얼굴 포즈, 정렬(facial alignment), 가시성(visibility) 간의 강한 상관관계를 활용하여, 세 가지 작업 모두에서 뛰어난 성능을 발휘하는 모델을 구현하기 위해 네트워크 아키텍처와 학습 전략을 제안한다. 제안하는 아키텍처는 잔차 블록(residual blocks)과 측면(skip) 연결을 갖춘 인코더-디코더형 CNN 구조를 사용한다. 실험을 통해 헤드 포즈 추정과 기준점 기반 얼굴 정렬을 함께 학습하는 것이 헤드 포즈 추정 성능을 크게 향상시킴을 입증하였다. 또한, 포즈 추정 작업을 인코더의 끝부분, 즉 블로킹(bottleneck) 레이어에 배치하고, 공간 정보에 의존하는 작업(가시성 및 정렬)은 최종 디코더 레이어에 배치함으로써 전체 성능이 더욱 향상됨을 확인하였다. 실험 결과, 제안 모델은 얼굴 포즈 추정 및 가시성 판단 작업에서 기존 최고 성능(SOTA, state-of-the-art)을 초월하는 성능을 보였다. 또한 최종적으로 기준점 회귀(regression) 단계를 추가함으로써, 얼굴 정렬 결과 또한 기존 최고 수준과 동등한 성능을 달성하였다.