
초록
본 논문의 목적은 소음이 많은 비제약적 환경에서 화자 인식을 수행하는 것입니다. 우리는 두 가지 주요 기여를 합니다. 첫째, 오픈 소스 미디어에서 수집한 대규모 오디오-비주얼 화자 인식 데이터셋을 소개합니다. 완전 자동화된 파이프라인을 사용하여, 6,000명 이상의 화자로부터 100만 건 이상의 발화를 포함하는 VoxCeleb2 데이터셋을 구성했습니다. 이는 공개적으로 이용 가능한 어떤 화자 인식 데이터셋보다도 몇 배나 더 큽니다.둘째, 다양한 조건 하에서 음성으로부터 신원을 효과적으로 식별할 수 있는 컨볼루셔널 뉴럴 네트워크(CNN) 모델과 학습 전략을 개발하고 비교합니다. VoxCeleb2 데이터셋으로 학습된 모델들은 벤치마크 데이터셋에서 이전 연구들의 성능을 크게 초월하였습니다.