17일 전

픽셀 인 픽셀 네트워크: 야생 환경에서의 효율적인 얼굴 랜드마크 탐지로 향하여

Haibo Jin, Shengcai Liao, Ling Shao
픽셀 인 픽셀 네트워크: 야생 환경에서의 효율적인 얼굴 랜드마크 탐지로 향하여
초록

최근 들어, 얼굴 랜드마크를 정확히 위치시키는 데优异한 성능을 보여주기 때문에 히트맵 회귀 모델이 인기를 끌고 있다. 그러나 이러한 모델들 사이에는 여전히 세 가지 주요한 문제들이 존재한다. 첫째, 계산 비용이 매우 높으며, 둘째, 전반적인 형태에 대한 명시적인 제약이 부족하며, 셋째, 도메인 간 차이(도메인 갭)가 흔히 존재한다. 이러한 문제들을 해결하기 위해 우리는 얼굴 랜드마크 탐지용 새로운 모델인 Pixel-in-Pixel Net(PIPNet)을 제안한다. 제안된 모델은 히트맵 회귀 기반의 새로운 탐지 헤드를 탑재하고 있으며, 저해상도 특징 맵 위에서 동시에 점수와 오프셋을 예측한다. 이를 통해 반복적인 업샘플링 레이어가 더 이상 필요 없게 되어, 모델 정확도를 희생하지 않으면서도 추론 시간을 크게 단축할 수 있다. 또한, 인접한 랜드마크들의 예측을 융합함으로써 국소적 제약을 강화하는 간단하면서도 효과적인 이웃 회귀 모듈을 제안하여 새로운 탐지 헤드의 강건성을 향상시켰다. PIPNet의 도메인 간 일반화 능력을 further 향상시키기 위해, 커리큘럼을 활용한 자기 학습(self-training) 전략을 제안한다. 이 학습 전략은 더 쉬운 작업부터 시작하여 점차 어려움을 높이는 방식으로, 다양한 도메인의 레이블이 없는 데이터로부터 더 신뢰할 수 있는 가짜 라벨(pseudo-labels)을 효과적으로 탐지할 수 있다. 광범위한 실험 결과를 통해 PIPNet의 우수성을 입증하였으며, 감독 학습 설정 하에서 여섯 개의 대표적 벤치마크 중 세 개에서 최신 기술(SOTA, State-of-the-Art) 수준의 성능을 달성하였다. 또한, 두 개의 도메인 간 테스트 세트에서도 기존의 베이스라인 모델들에 비해 일관되게 성능이 향상되었다. 특히, PIPNet의 경량 버전은 CPU에서 35.7 FPS, GPU에서는 200 FPS로 실행되며, 동시에 최신 기술 수준의 모델들과 경쟁 가능한 정확도를 유지하고 있다. PIPNet의 코드는 https://github.com/jhb86253817/PIPNet 에서 공개되어 있다.

픽셀 인 픽셀 네트워크: 야생 환경에서의 효율적인 얼굴 랜드마크 탐지로 향하여 | 최신 연구 논문 | HyperAI초신경