18일 전

인코더-디코더 CNN의 캐스케이드 구조와 학습된 좌표 회귀기(Regressor)를 활용한 강건한 얼굴 랜드마크 탐지

{Luis Baumela, Jose M. Buenaposada, Roberto Valle}
초록

컨볼루션 신경망(CNN)은 여러 컴퓨터 비전 문제에서 기준 기술로 자리 잡았다. 얼굴 랜드마크 탐지에 사용되는 CNN은 매우 강건하지만, 제약 없는 조건에서 촬영된 이미지를 처리할 때 여전히 정확도가 부족한 문제가 있다. 본 논문에서는 랜드마크 추정 정확도를 향상시키기 위해 신경망 회귀기의 캐스케이드를 활용하는 방법을 탐구한다. 이를 위해 동일한 아키텍처를 가진 두 개의 인코더-디코더 CNN을 연결한다. 첫 번째 네트워크는 랜드마크 위치의 대략적인 추정치를 담은 히트맵 세트를 생성한다. 두 번째 네트워크는 합성된 가림 현상(occlusion) 데이터로 훈련되어, 모호하거나 가려진 랜드마크의 위치를 보정한다. 마지막으로, 모든 히트맵 간에 공유된 가중치를 가지는 밀집 연결 층을 통해 랜드마크 좌표를 정확히 회귀한다. 제안하는 방법은 300W, COFW, WFLW와 같이 일반적으로 가장 도전적인 공개 데이터셋으로 평가되는 세 가지 벤치마크에서 최신 기술(SOTA) 수준의 성능을 달성하였다.

인코더-디코더 CNN의 캐스케이드 구조와 학습된 좌표 회귀기(Regressor)를 활용한 강건한 얼굴 랜드마크 탐지 | 최신 연구 논문 | HyperAI초신경