2달 전
Sparse Local Patch Transformer를 이용한 강건한 얼굴 정렬 및 랜드마크 내재적 관계 학습
Jiahao Xia; Weiwei qu; Wenjian Huang; Jianguo Zhang; Xi Wang; Min Xu

초록
최근 몇 년 동안 히트맵 회귀 방법이 얼굴 정렬 분야를 주도해 왔지만, 이 방법들은 서로 다른 랜드마크 간의 본질적인 관계를 무시하고 있습니다. 본 논문에서는 이러한 본질적인 관계를 학습하기 위해 희소 로컬 패치 트랜스포머(SLPT, Sparse Local Patch Transformer)를 제안합니다. SLPT는 각 단일 랜드마크의 표현을 로컬 패치에서 생성하고, 어텐션 메커니즘을 기반으로 한 적응형 본질적 관계에 따라 이를 집계합니다. 각 랜드마크의 서브픽셀 좌표는 집계된 특징을 기반으로 독립적으로 예측됩니다. 또한, 코스-투-파인(coarse-to-fine) 프레임워크가 SLPT와 결합되어 도입되었습니다. 이 프레임워크는 동적으로 크기가 조정되는 로컬 패치에서 얻은 세부 특징을 사용하여 초기 랜드마크가 점진적으로 목표 얼굴 랜드마크로 수렴할 수 있도록 합니다. WFLW, 300W 및 COFW 등 세 가지 인기 벤치마크에서 수행된 광범위한 실험 결과, 제안된 방법이 얼굴 랜드마크 간의 본질적 관계를 학습함으로써 현존하는 최고 수준의 성능을 보이며 계산 복잡도가 크게 줄어들었음을 입증하였습니다. 코드는 프로젝트 웹사이트에서 제공됩니다.