초록
가짜 음성 탐지에 강건한 화자 인증 기술은 음성 기반 인증 시스템이 위조 시도로부터 보호되도록 하는 데 기여한다. 이러한 시스템은 가짜로 위장된 음성 구간을 탐지하고, 진짜로 확인된 음성 구간이 실제 화자로부터 발생한 것임을 검증할 수 있어야 한다. 본 연구에서는 시간 도메인에서 음파 진폭의 확률 질량 함수(probability mass function)를 기반으로 한 이해하기 쉽고 설명 가능한 임베딩(embedding) 기법을 활용하였다. 결과적으로, 대응 방안(CM) 시스템이 성별에 따라 구분되는 경우 성능이 향상됨을 확인하였다. 평가를 위해 ASVspoof2019 챌린지의 논리적 접근(Logical Access, LA) 데이터베이스가 사용되었다. 성별에 따라 구분되는 CM 시스템은 남성 성별 평가 세트에서 9.2%의 동등 오류율(EER), 여성 성별에서는 10.1%의 EER을 기록하였다. 반면, 성별에 무관한 CM 시스템의 경우 EER은 10.2%로 나타났다. 팀드 평가(tandem assessment, t-DCF)를 위한 탐지 비용 함수(detection cost function)로 측정한 시스템 성능은 성별에 따라 구분되는 시스템이 0.262, 성별에 무관한 시스템은 0.328로 나타났다.