17일 전

리비그의 배가 얼굴 랜드마크 탐지와 만날 때: 실용적인 모델

Haibo Jin, Jinpeng Li, Shengcai Liao, Ling Shao
리비그의 배가 얼굴 랜드마크 탐지와 만날 때: 실용적인 모델
초록

최근 몇 년간 얼굴 랜드마크 검출 분야에서 큰 진전이 이루어졌다. 그러나 기존 연구들은 실용적 응용을 위한 모델에 대해 체계적으로 논의한 사례가 드물다. 대신 대부분의 연구는 동시에 여러 문제를 다루기보다는 단일 혹은 일부 문제에 집중하여 다른 측면은 간과하는 경향이 있다. 이러한 격차를 메우기 위해, 정확성, 견고성, 효율성, 일반화 능력, 그리고 엔드투엔드 학습이 가능한 실용적인 모델을 동시에 달성하는 것을 목표로 한다. 이를 위해 먼저 하나의 트랜스포머 디코더를 디텍션 헤드로 갖춘 베이스라인 모델을 제안한다. 더 높은 정확도를 달성하기 위해, 동적 쿼리 초기화(Dynamic Query Initialization, DQInit)와 쿼리 인지 메모리(Query-aware Memory, QAMem)라는 두 가지 경량 모듈을 추가로 제안한다. 구체적으로 DQInit는 입력 데이터로부터 디코더의 쿼리를 동적으로 초기화함으로써, 다수의 디코더 레이어를 갖춘 모델과 동등한 정확도를 달성할 수 있도록 한다. 반면 QAMem은 각 쿼리에 독립적인 메모리 값을 할당함으로써 저해상도 특징 맵에서 쿼리의 구분 능력을 강화한다. 이로 인해 제안 모델은 고해상도 특징 맵에 의존하지 않으면서도 뛰어난 정확도를 유지할 수 있다. 세 가지 대표적인 벤치마크에서 실시한 광범위한 실험과 분석을 통해 제안 모델의 효과성과 실용적 장점을 입증하였다. 특히 WFLW에서 새로운 최고 성능(SOTA)을 달성하였으며, 300W와 COFW에서도 경쟁력 있는 성능을 보였다. 동시에 50 FPS 이상의 실시간 처리 속도를 유지함으로써, 실제 응용에 적합한 성능을 입증하였다.

리비그의 배가 얼굴 랜드마크 탐지와 만날 때: 실용적인 모델 | 최신 연구 논문 | HyperAI초신경