LOTR: Localization Transformer를 이용한 얼굴 랜드마크 위치 추정

본 논문은 새로운 Transformer 기반의 얼굴 랜드마크 위치 추정 네트워크인 Localization Transformer(LOTR)을 제안한다. 제안된 프레임워크는 특징 맵 내의 공간 정보를 보다 효과적으로 활용하기 위해 Transformer 네트워크를 활용하는 직접 좌표 회귀 방식이다. LOTR 모델은 세 가지 주요 모듈로 구성된다. 첫째, 입력 이미지를 특징 맵으로 변환하는 시각적 백본(visual backbone), 둘째, 시각적 백본에서 생성된 특징 표현을 개선하는 Transformer 모듈, 셋째, Transformer의 표현에서 직접 랜드마크 좌표를 예측하는 랜드마크 예측 헤드이다. 자르고 정렬된 얼굴 이미지를 입력으로 제공할 경우, 제안된 LOTR는 후처리 단계 없이 엔드 투 엔드(end-to-end)로 학습이 가능하다. 또한 본 논문은 Wing 손실 함수의 기울기 불연속성 문제를 해결하는 스무딩 웨이닝(smooth-Wing) 손실 함수를 도입하였으며, 이는 기존의 L1, L2, Wing 손실 함수와 비교하여 더 우수한 수렴 성능을 보였다. 106개 점 얼굴 랜드마크 위치 추정의 제1회 대규모 챌린지에서 제공한 JD 랜드마크 데이터셋에 대한 실험 결과, LOTR는 리더보드 및 최근의 두 가지 히트맵 기반 접근법보다 우수한 성능을 보였다. WFLW 데이터셋에서의 실험 결과 역시 여러 최신 기술들과 비교하여 유망한 성능을 입증하였다. 더불어, 본 연구에서는 제안된 LOTR를 이용한 얼굴 정렬을 통해 최신 기술 수준의 얼굴 인식 성능이 향상됨을 보고하였다.