11일 전
wav2vec 2.0과 데이터 증강을 이용한 자동 화자 인증 위조 및 딥페이크 탐지
Hemlata Tak, Massimiliano Todisco, Xin Wang, Jee-weon Jung, Junichi Yamagishi, Nicholas Evans

초록
사기 방지 대응 시스템의 성능은 충분히 대표적인 훈련 데이터를 사용하는 데 근본적으로 의존한다. 그러나 일반적으로 이러한 데이터는 제한적이며, 현재의 해결 방안은 실제 환경에서 발생하는 공격에 대해 일반화가 부족한 경향이 있다. 통제되지 않고 예측할 수 없는 공격에 대응할 수 있는 신뢰도를 높이기 위한 전략이 필수적이다. 본 연구에서는 wav2vec 2.0 전단계를 활용한 자기지도 학습(self-supervised learning) 기법을 적용한 노력에 대해 보고한다. 사기 데이터를 전혀 사용하지 않고 오직 정상 데이터(bona fide data)만을 기반으로 초기 표현을 학습하였음에도 불구하고, ASVspoof 2021 Logical Access 및 Deepfake 데이터베이스에서 문헌상 보고된 최저 수준의 동등 오류률(equivalent error rate, EER)을 달성하였다. 데이터 증강(data augmentation) 기법과 결합할 경우, 기준 시스템 대비 약 90%의 상대적 성능 향상이 이루어졌다.