11일 전
Bts-e: 호흡-발화-침묵 인코더를 활용한 오디오 딥페이크 탐지
{Kihun Hong, Souhwan Jung, Long Nguyen-Vu, Thien-Phuc Doan}
초록
음성 피싱(vishing)은 음성 합성 기술의 발전으로 인해 점점 더 흔해지고 있다. 특히, 딥러닝을 활용해 피해자의 목소리를 모방하는 임의의 내용의 오디오 클립을 생성하는 기술은 인간은 물론 자동화된 발화자 인증(ASV) 시스템 역시 이를 구분하기 어렵게 만들고 있다. 이러한 문제에 대응하기 위해 최근에는 합성 음성에 대응하는 대응 기술(CM) 시스템이 개발되고 있다. 본 연구에서는 오디오 클립 내에서 호흡, 발화(speech), 침묵 소리 간의 상관관계를 평가하는 BTS-E 프레임워크를 제안한다. 이를 바탕으로 딥페이크 음성 탐지 작업에 활용한다. 우리는 자연스러운 인간의 소리, 예를 들어 호흡 소리는 텍스트-음성 합성(TTS) 시스템으로 쉽게 합성되기 어렵다고 주장한다. 이를 검증하기 위해 ASVspoof 2019 및 2021 평가 세트를 활용한 대규모 평가를 수행하였다. 실험 결과, 호흡 소리 특징이 딥페이크 음성 탐지에 효과적으로 활용될 수 있음을 입증하였다. 종합적으로 제안된 시스템은 분류기 성능을 최대 46%까지 향상시켰다.