2달 전

얼굴 검출을 위한 ConvNet과 3D 모델의 엔드투엔드 통합

Yunzhu Li; Benyuan Sun; Tianfu Wu; Yizhou Wang
얼굴 검출을 위한 ConvNet과 3D 모델의 엔드투엔드 통합
초록

본 논문은 야외 환경에서 얼굴을 감지하기 위한 방법을 제시하며, 이 방법은 ConvNet(합성곱 신경망)과 3D 평균 얼굴 모델을 단일화된 다중 작업 차별 학습 프레임워크에 통합합니다. 3D 평균 얼굴 모델은 미리 정의되고 고정되어 있습니다(예: AFLW 데이터셋에서 제공된 모델을 사용했습니다). ConvNet은 두 가지 구성 요소로 이루어져 있습니다: (i) 얼굴 제안 구성 요소는 각 예측된 키포인트가 3D 평균 얼굴 모델에 대해 회전과 이동 변환 매개변수를 추정하여 얼굴 경계 상자 제안을 계산합니다. (ii) 얼굴 검증 구성 요소는 키포인트 기반 구성을 활용하여 제안들을 필터링하고 개선함으로써 감지 결과를 계산합니다.제안된 방법은 최신 일반 객체 감지용 ConvNet(faster R-CNN 등)을 얼굴 감지에 적용할 때 발생하는 두 가지 문제를 해결합니다: (i) 하나는 3D 평균 얼굴 모델을 활용하여 영역 제안 네트워크(RPN)에서 미리 정의된 앵커 박스의 직관적인 설계를 제거하는 것입니다. (ii) 다른 하나는 일반 RoI(관심영역) 풀링 레이어를 객체 구조를 고려한 구성 풀링 레이어로 대체하는 것입니다. 다중 작업 손실 함수는 세 가지 항목으로 구성됩니다: 분류용 Softmax 손실 및 얼굴 키포인트와 얼굴 경계 상자의 위치에 대한 smooth l1 손실 [14].실험에서는 본 연구의 ConvNet이 AFLW 데이터셋만을 사용하여 학습되었으며, FDDB 벤치마크에서는 fine-tuning 후 테스트되었고, AFW 벤치마크에서는 fine-tuning 없이 테스트되었습니다. 제안된 방법은 두 벤치마크에서 매우 경쟁력 있는 최신 성능을 달성하였습니다.

얼굴 검출을 위한 ConvNet과 3D 모델의 엔드투엔드 통합 | 최신 연구 논문 | HyperAI초신경