13시간 전

화자 비식별 시스템에서 정체성 유출 평가

Seungmin Seo, Oleg Aulov, Afzal Godil, Kevin Mangold

초록

화자 비식별 기술은 음성의 이해 가능성을 유지하면서 화자 신원을 은폐하는 것을 목표로 한다. 본 연구에서는 세 가지 보완적인 오류율을 활용하여 잔여 신원 노출 여부를 정량화하는 벤치마크를 제안한다. 이는 동등오류율(EER), 누적매칭특성(CMC) 히트율, 그리고 캐노니컬상관분석과 프로크루스테스 분석을 통해 측정된 임베딩 공간 내 유사도를 포함한다. 평가 결과, 최첨단 화자 비식별 시스템 모두 신원 정보의 누출을 겪고 있음을 확인하였다. 본 연구에서 평가된 최고 성능 시스템도 무작위 추측보다 다소 높은 성능을 보였을 뿐이며, 가장 낮은 성능을 보인 시스템은 CMC 기준 상위 50개 후보 내에서 45%의 히트율을 기록하였다. 이러한 결과는 현재 화자 비식별 기술에 여전히 지속적인 개인정보 보호 위험이 존재함을 시사한다.