효율적인 다중 작업 신경망을 통한 얼굴 정렬, 헤드 포즈 추정 및 얼굴 추적

기존의 합성곱 신경망(Convolutional Neural Networks, CNNs)은 얼굴 관련 알고리즘의 성능을 크게 향상시켰지만, 실용적 환경에서 정확성과 효율성을 동시에 유지하는 것은 여전히 도전 과제이다. 최신 기술들은 더 깊은 네트워크를 활용하여 성능을 향상시키지만, 파라미터 수가 많고 계산 복잡도가 높아 모바일 애플리케이션에 적용하기에는 현실성이 떨어진다. 이를 해결하기 위해 본 연구에서는 얼굴 정렬(face alignment), 얼굴 추적(face tracking), 그리고 머리 자세 추정(head pose estimation)을 동시에 수행할 수 있는 효율적인 다중 작업 신경망인 Alignment & Tracking & Pose Network(ATPN)을 제안한다. 특히 얼굴 정렬의 경우, 더 적은 층 수로도 뛰어난 성능을 달성하기 위해 얕은 층과 깊은 층의 특징 간에 단순 연결(shortcut connection)을 도입한다. 우리는 얕은 층의 특징이 얼굴 경계와 높은 상관관계를 가지며, 얼굴의 구조적 정보를 제공함으로써 얼굴 정렬에 핵심적인 역할을 한다는 사실을 발견하였다. 또한 얼굴 정렬 결과를 기반으로 저비용의 히트맵(heatmap)을 생성하고, 이를 특징과 융합함으로써 나머지 두 가지 작업의 성능을 향상시킨다. 이 히트맵을 통해 네트워크는 랜드마크의 기하학적 정보와 외형적 정보를 동시에 활용하여 머리 자세 추정에 효과적으로 기여할 수 있다. 더불어 히트맵은 얼굴 추적 과정에서 주의 집중(attention) 정보를 제공하며, 각 프레임에 대한 얼굴 탐지 단계를 생략할 수 있어 실시간 동영상 기반 작업의 처리 능력을 크게 향상시킨다. 제안한 ATPN은 WFLW, 300VW, WIDER Face, 300W-LP의 네 가지 벤치마크 데이터셋에서 실험을 통해 검증되었으며, 기존의 경량 모델들과 비교하여 훨씬 적은 파라미터 수와 낮은 계산 복잡도로 더 우수한 성능을 달성함을 실험 결과로 입증하였다.