실시간보다 빠른 얼굴 정렬: 제약 없는 자세에서 3D 공간 변환기 네트워크 접근법

얼굴 정렬은 이미지에서 의미론적으로 알려진 랜드마크 점들의 집합을 찾는 과정을 포함합니다. 그러나 얼굴의 자세가 바뀌면서 랜드마크 점들이 가시적인 경계로 이동되거나 무시되는 2D 접근 방식에서는 이러한 랜드마크 점들의 의미론적 의미가 종종 상실됩니다. 다양한 자세에서도 일관된 정렬 점을 추출하기 위해서는 정렬 단계에서 얼굴의 3D 구조를 고려해야 합니다. 그러나 단일 2D 이미지에서 3D 구조를 추출하는 것은 보통 처음부터 정렬이 필요합니다. 우리는 카메라 투영 행렬과 3D 모델의 왜곡 매개변수를 모두 모델링하기 위해 3D 공간 변환 네트워크(3DSTN, 3D Spatial Transformer Network)를 사용하여 얼굴의 3D 형태와 의미론적으로 일관된 2D 정렬을 동시에 추출하는 새로운 접근 방식을 제시합니다. 일반적인 3D 모델과 얇은 판 스플라인(TPS, Thin Plate Spline) 왜곡 함수를 활용함으로써 대규모 3D 형태 기반 없이 주체별로 특화된 3D 형태를 생성할 수 있습니다. 또한, 제안한 네트워크는 300W-LP 데이터셋에서 완전히 합성 데이터로 end-to-end 프레임워크에서 학습될 수 있습니다. 다른 3D 방법들과 달리, 우리의 접근 방식은 네트워크를 한 번만 통과하면 되므로 실시간보다 더 빠른 정렬이 가능합니다. Annotated Facial Landmarks in the Wild (AFLW) 및 AFLW2000-3D 데이터셋에서 우리 모델의 평가 결과는 다른 3D 정렬 방법들에 비해 최고 수준의 성능을 달성한다는 것을 보여줍니다.