2달 전
VoxBlink2: 10만 명 이상 화자 인식 코퍼스 및 오픈셋 화자 식별 벤치마크
Yuke Lin; Ming Cheng; Fulin Zhang; Yingying Gao; Shilei Zhang; Ming Li

초록
본 논문에서는 약 10백만 개의 발화와 11만 명 이상의 실제 화자들의 비디오를 포함하는 대규모 오디오-비주얼 화자 인식 데이터셋, VoxBlink2를 제공합니다. 이 데이터셋은 최적화된 데이터 수집 파이프라인 덕분에 더 다양한 화자와 시나리오를 포함하여 VoxBlink 데이터셋에 비해 크게 확장되었습니다. 이후, 우리는 학습 전략, 데이터 규모, 모델 복잡도가 화자 검증에 미치는 영향을 탐구하고, 결국 VoxCeleb1-O 테스트 세트에서 단일 모델 기준으로 최신 수준의 등록 오류율(EER) 0.170%와 최소 결정비용 함수(minDCF) 0.006%를 설정하였습니다. 이러한 뛰어난 결과는 우리에게 새로운 도전적인 관점에서 화자 인식을 탐구할 동기를 부여합니다. 우리는 알려진 갤러리 화자와 프로브 발화를 매칭하거나 알려지지 않은 쿼리로 분류하는 오픈-셋 화자 식별 작업을 제안합니다. 이 작업과 관련하여 구체적인 벤치마크 및 평가 프로토콜을 설계하였습니다. 데이터와 모델 자원은 http://voxblink2.github.io에서 확인할 수 있습니다.