
초록
큰 자세 변화는 여전히 실제 환경에서의 얼굴 검출에 대한 도전 과제로 남아 있습니다. 이 문제를 해결하기 위해 우리는 새로운 단계적 합성곱 신경망(Cascaded Convolutional Neural Network)을 제안하며, 이를 지도 변환 네트워크(Supervised Transformer Network)라고 명명합니다. 첫 번째 단계는 다중 작업 영역 제안 네트워크(Multi-task Region Proposal Network, RPN)로, 후보 얼굴 영역과 관련된 얼굴 랜드마크를 동시에 예측합니다. 후보 영역은 감지된 얼굴 랜드마크를 표준 위치로 매핑하여 더 나은 정규화를 위해 왜곡됩니다. 두 번째 단계인 RCNN은 이러한 왜곡된 후보 영역이 유효한 얼굴인지 아닌지를 확인합니다. 우리는 단계적 네트워크의 전체적인 학습을 수행하며, 이에는 얼굴 랜드마크의 표준 위치 최적화도 포함됩니다. 이러한 변환의 지도 학습은 자동으로 얼굴/비얼굴 패턴을 구분하기 위한 최적의 스케일을 선택합니다. 네트워크의 두 단계에서 얻은 특징 맵을 결합함으로써, 우리는 여러 공개 벤치마크에서 최고 수준의 검출 정확도를 달성하였습니다. 실시간 성능을 위해, 우리는 부스팅 캐스케이드 얼굴 검출기에서 생성된 관심 영역(Region of Interest, ROI)에만 단계적 네트워크를 실행합니다. 우리의 검출기는 VGA 해상도 이미지에서 단일 CPU 코어로 30 FPS로 작동합니다.