한 달 전
비디오 얼굴 인식을 위한 신경망 집계 모델
Jiaolong Yang; Peiran Ren; Dongqing Zhang; Dong Chen; Fang Wen; Hongdong Li; Gang Hua

초록
본 논문은 비디오 얼굴 인식을 위한 신경 집계 네트워크(Neural Aggregation Network, NAN)를 제시합니다. 이 네트워크는 사람의 얼굴 비디오나 얼굴 이미지 집합(이미지 수가 변수일 수 있음)을 입력으로 받아, 인식을 위한 간결하고 고정된 차원의 특성 표현을 생성합니다. 전체 네트워크는 두 개의 모듈로 구성됩니다. 특성 임베딩 모듈은 각 얼굴 이미지를 특성 벡터로 매핑하는 깊은 합성곱 신경망(Convolutional Neural Network, CNN)입니다. 집계 모듈은 두 개의 주의 메커니즘 블록으로 구성되어 있으며, 이들은 적응적으로 특성 벡터들을 집계하여 그들에 의해 형성된 볼록 껍질(convex hull) 내에서 단일 특성을 생성합니다. 주의 메커니즘 덕분에, 이미지 순서에 대한 불변성이 보장됩니다. 우리의 NAN은 표준 분류 또는 검증 손실 함수를 사용하여 추가적인 감독 신호 없이 훈련되며, 이 과정에서 자동으로 고품질의 얼굴 이미지를 선호하면서 낮은 품질의 이미지(예: 흐린, 가려진, 노출이 부적절한 얼굴)를 배제하도록 학습되는 것을 발견했습니다. IJB-A, YouTube Face, Celebrity-1000 비디오 얼굴 인식 벤치마크에서 수행한 실험 결과는 본 방법이 단순한 집계 방법보다 일관되게 우수하며 최신 기술(state-of-the-art) 정확도를 달성함을 보여주었습니다.