
초록
본 연구의 목적은 집합 기반 얼굴 인식(set-based face recognition)을 수행하는 것으로, 두 개의 얼굴 이미지 집합이 동일한 사람인지 아닌지를 결정하는 것입니다. 전통적으로, 집합 단위로 특징 설명자는 해당 집합 내의 개별 얼굴 이미지들의 설명자들의 평균으로 계산되었습니다. 본 논문에서는 시각적 품질(해상도, 조명)과 내용적 품질(차별적인 분류에 대한 상대적인 중요성)을 기반으로 집합을 통합하는 신경망 구조를 설계하였습니다. 이를 위해, 입력으로 이미지 집합(집합 내의 이미지 수는 변할 수 있음)을 받고 전체 집합에 대한 고정된 크기의 특징 설명자를 학습하여 계산하는 다중열 네트워크(Multicolumn Network, MN)를 제안합니다. 고품질 표현을 촉진하기 위해, 각 개별 입력 이미지는 먼저 자체 품질 평가 모듈에 의해 시각적 품질로 가중되고, 이후 다른 이미지들에 대한 내용적 품질에 따른 동적 재조정이 이루어집니다. 이 두 가지 품질은 모두 학습 중에 암시적으로 배우며, 집합 단위 분류를 위해 사용됩니다. VGGFace2 데이터셋으로 동일하게 학습된 이전 최신 아키텍처들과 비교하여, 우리의 다중열 네트워크는 IARPA IJB 얼굴 인식 벤치마크에서 2-6%의 성능 향상을 보였으며, 이 벤치마크에서 모든 방법론보다 우수한 결과를 달성하였습니다.