FaceNet: 얼굴 인식 및 클러스터링을 위한 통합 임베딩

최근 얼굴 인식 분야에서 상당한 발전이 이루어졌음에도 불구하고, 대규모로 효율적으로 얼굴 검증 및 인식을 구현하는 것은 여전히 현재 접근 방식에 큰 도전을 제기하고 있습니다. 본 논문에서는 얼굴 이미지를 직접 유클리드 공간으로 매핑하여 거리가 얼굴 유사도의 척도와 직접적으로 대응되는 시스템인 FaceNet을 제시합니다. 이러한 공간이 생성되면, FaceNet 임베딩을 특징 벡터로 사용하여 표준 기술을 통해 얼굴 인식, 검증 및 클러스터링과 같은 작업들을 쉽게 구현할 수 있습니다.본 방법은 이전의 딥 러닝 접근 방식에서 중간 병목 계층(bottleneck layer)을 최적화하는 것이 아니라 임베딩 자체를 직접 최적화하도록 훈련된 깊은 합성곱 신경망(deep convolutional network)을 사용합니다. 훈련 과정에서는 새로운 온라인 트립렛 마이닝(online triplet mining) 방법을 사용하여 대략적으로 정렬된 일치/불일치 얼굴 패치(triplets of roughly aligned matching / non-matching face patches)를 생성하여 활용합니다. 본 접근 방식의 장점은 표현 효율성이 크게 향상된다는 것입니다: 각 얼굴당 단지 128바이트만 사용하여 최고 수준의 얼굴 인식 성능을 달성하였습니다.광범위하게 사용되는 'Labeled Faces in the Wild (LFW)' 데이터셋에서 본 시스템은 99.63%라는 새로운 기록의 정확도를 달성하였습니다. 'YouTube Faces DB' 데이터셋에서는 95.12%의 정확도를 보였습니다. 본 시스템은 두 데이터셋 모두에서 가장 우수한 공개 결과보다 오류율을 30% 줄였습니다.또한, 우리는 서로 호환되어 서로 간에 직접 비교가 가능한 다른 버전의 얼굴 임베딩(face embeddings) (다른 네트워크에서 생성됨)을 설명하기 위한 조화 임베딩(harmonic embeddings) 및 조화 트립렛 손실(harmonic triplet loss) 개념을 소개합니다.