11일 전
엔드투엔드 스펙트로-시간 그래프 어텐션 네트워크를 통한 화자 인증 위조 방지 및 음성 딥페이크 탐지
Hemlata Tak, Jee-weon Jung, Jose Patino, Madhu Kamble, Massimiliano Todisco, Nicholas Evans

초록
진정한 발화와 위조 또는 딥페이크 발화를 구분하는 데 사용되는 아르테팩트는 특정 주파수 대역과 시간 구간 내에 존재하는 것으로 알려져 있다. 이러한 아르테팩트를 포착하고 모델링하기 위한 다양한 접근법이 존재하지만, 다양한 위조 공격 유형에 걸쳐서 항상 우수한 성능을 보장하는 방법은 아직 존재하지 않는다. 따라서 신뢰할 수 있는 탐지 성능을 얻기 위해서는 서로 다른 공격 유형을 탐지하도록 조정된 여러 탐지 시스템의 융합이 종종 필요하다. 본 논문에서는 모델 내부에서 융합을 수행하고 원시 음성 파형 입력에서 표현을 자동으로 학습하는 방식이 더 뛰어난 성능을 달성할 수 있음을 보여준다. 주요 기여점은 서로 다른 주파수 대역과 시간 간격을 아우르는 신호 증거 간의 관계를 학습하는 스펙트로-시계열 그래프 주의망(GAT)이다. 스펙트럼(S) 및 시간(T) 하위 그래프의 모델 수준 그래프 융합과 분류 성능을 향상시키기 위한 그래프 풀링 전략을 도입한 본 연구에서 제안하는 RawGAT-ST 모델은 ASVspoof 2019 논리적 접근 데이터베이스에서 등가 오류율(Equal Error Rate, EER) 1.06%를 달성하였다. 이는 현재까지 보고된 최고 수준의 성능 중 하나이며, 오픈소스 구현을 통해 재현 가능하다.