자기지도 학습 XLS-R와 SLS 분류기를 활용한 오디오 딥페이크 탐지

생성형 AI 기술, 특히 텍스트-음성 변환(TTS) 및 음성 변환(VC) 기술은 실제 음성 샘플과 구분이 거의 불가능할 정도로 정교해지면서, 사람들의 진위 여부 판단에 어려움을 초래하고 있다. 이러한 구분의 어려움은 미디어에 대한 신뢰를 약화시키며, 개인의 음성 신호를 무단으로 복제하는 문제는 개인정보 보호 및 보안 측면에서 심각한 도전 과제를 제기한다. 딥페이크 음성 탐지 분야에서는 현재 높은 탐지 정확도를 달성하는 모델의 대부분이 자기지도 학습(pre-trained) 기반의 사전 훈련 모델을 활용하고 있다. 그러나 딥페이크 음성 생성 알고리즘의 지속적인 발전으로 인해 새로운 생성 기법에 대해 높은 구분 정확도를 유지하는 것은 점점 더 어려워지고 있다.이러한 문제를 해결하기 위해, 우리는 딥페이크 음성 특징의 감도를 향상시키기 위해 SLS(Sensitive Layer Selection) 모듈을 도입한 딥페이크 음성 탐지 모델을 제안한다. 구체적으로, 사전 훈련된 XLS-R 모델을 활용하여 다양한 음성 특징을 각 층에서 추출할 수 있으며, 각 층은 독특한 구분 정보를 제공한다. SLS 분류기를 통해 모델은 음성 특징의 다양한 층 수준에서 민감한 맥락 정보를 포착하여, 이를 효과적으로 가짜 음성 탐지에 활용한다. 실험 결과, 제안한 방법은 ASVspoof 2021 DF 및 In-the-Wild 데이터셋 모두에서 최고 수준의 성능(SOTA)을 달성하였으며, ASVspoof 2021 DF 데이터셋에서는 Equal Error Rate(EER) 1.92%, In-the-Wild 데이터셋에서는 EER 7.46%의 성능을 기록하였다. 코드와 데이터는 https://github.com/QiShanZhang/SLSforADD 에서 확인할 수 있다.