
초록
단일 RGB 이미지에서 헤드 요우(yaw)의 전체 범위를 포함한 유일한 오일러 각도를 예측하도록 설계된 엔드투엔드 헤드 포즈 추정 네트워크를 제안한다. 기존 방법들은 전면 시점에서는 우수한 성능을 보이지만, 모든 시점에서의 헤드 포즈 추정을 목표로 하는 경우는 드물다. 본 연구는 자율주행 및 소매 산업 등 다양한 응용 분야에 기여할 수 있다. 제안하는 네트워크는 다중 손실 기반 접근법을 기반으로 하되, 광범위한 포즈 추정에 적합하도록 손실 함수 및 학습 전략을 개선하였다. 또한, 현재의 패노픽(panoptic) 데이터셋에서 전면 시점의 정답 레이블을 처음으로 추출하였다. 이를 통해 개발된 '광범위한 헤드 포즈 추정 네트워크(WHENet)'는 헤드 요우의 전체 범위(즉, 광범위한)에 적용 가능한 최초의 세밀한 현대적 방법이며, 동시에 전면 시점의 헤드 포즈 추정에서 최신 기술을 상회하거나 근접하는 성능을 달성하였다. 본 네트워크는 작고 효율적이어서 모바일 장치 및 다양한 응용 분야에 적합하다.