2달 전

시간 영역 임베딩을 기반으로 한 연속 스푸핑 저항형 자동 화자 인증

Weizman, Avishai ; Ben-Shimol, Yehuda ; Lapidot, Itshak

초록

스포핑에 견고한 자동 화자 인증(SASV) 시스템은 스포핑 음성으로부터의 보호를 위한 핵심 기술입니다. 본 연구에서는 논리적 접근 공격에 초점을 맞추고 SASV 작업을 위한 새로운 접근 방식을 소개합니다. 시간 영역에서 파형 진폭의 확률 질량 함수(PMF)를 기반으로 한 진정한 음성과 스포핑 음성의 새로운 표현이 사용됩니다. 이 방법론은 훈련 세트 내의 선택된 그룹들의 PMF로부터 유도된 새로운 시간 임베딩을 생성합니다. 본 논문은 성별 분리를 통한 성능 향상의 역할을 강조하며, 시간 영역 임베딩과 성별 인식을 결합한 카운터미처(CM) 시스템을 제안합니다. 이 방법은 남성과 여성에 대한 뛰어난 성별 인식 능력을 보여주며, 각각 0.94%와 1.79%의 불일치율을 기록하였습니다. 남성 및 여성 CM 시스템은 각각 8.67%와 10.12%의 동일 오류율(EER)을 달성하였습니다. 전통적인 화자 인증 시스템과 이 접근 방식을 통합함으로써 ASVspoof2019 챌린지 데이터베이스를 사용하여 개선된 일반화 능력과 연속 검출 비용 함수 평가를 입증하였습니다. 또한, 시간 임베딩 접근 방식을 전통적인 CM과 융합하는 것이 SASV 아키텍처에서 일반화를 어떻게 향상시키는지를 조사하였습니다.