
초록
본 논문의 목적은 템플릿 기반 얼굴 인식을 위해 이미지 집합의 컴팩트 표현을 학습하는 것이다. 다음과 같은 기여를 한다: 첫째, 깊은 합성곱 신경망(CNN)에서 생성된 얼굴 설명자를 컴팩트한 고정 길이 표현으로 집계하고 임베딩하는 네트워크 구조를 제안한다. 이 컴팩트 표현은 최소한의 메모리 저장이 필요하며 효율적인 유사도 계산을 가능하게 한다. 둘째, {\em ghost clusters}를 포함하는 새로운 GhostVLAD 레이어를 제안한다. 이 {\em ghost clusters}는 집계에 기여하지 않는다. 우리는 입력 얼굴에 대한 품질 가중치가 자동으로 발생하여 정보가 많은 이미지가 저품질 이미지보다 더 많이 기여함을 보이고, {\em ghost clusters}가 저품질 이미지를 처리하는 네트워크의 능력을 향상시킨다는 것을 입증한다. 셋째, 입력 특징 차원, 클러스터 수 및 다양한 훈련 기법이 인식 성능에 미치는 영향을 탐구한다. 이러한 분석을 바탕으로 IJB-B 얼굴 인식 데이터셋에서 현존하는 최고 수준을 크게 초과하는 네트워크를 훈련시켰다. 현재 IJB-B는 가장 어려운 공개 벤치마크 중 하나이며, 우리는 식별 및 검증 프로토콜 모두에서 현존하는 최고 수준을 넘어섰다.