2달 전

다중 헤드 자기 주의 메커니즘에서 합성 음성 검출을 위한 시간-채널 모델링

Truong, Duc-Tuan ; Tao, Ruijie ; Nguyen, Tuan ; Luong, Hieu-Thi ; Lee, Kong Aik ; Chng, Eng Siong
다중 헤드 자기 주의 메커니즘에서 합성 음성 검출을 위한 시간-채널 모델링
초록

최근 트랜스포머 모델을 활용한 합성 음성 검출기들은 컨볼루션 신경망(CNN) 기반의 검출기들보다 우수한 성능을 보이고 있습니다. 이 개선은 트랜스포머 모델에서 다중 헤드 자기 주의(MHSA, Multi-Head Self-Attention) 메커니즘이 각 입력 토큰 간의 시간적 관계를 학습하는 강력한 모델링 능력 때문일 수 있습니다. 그러나 합성 음성의 아티팩트는 주파수 채널과 시간 세그먼트의 특정 영역에 위치할 수 있으며, MHSA는 이러한 입력 시퀀스의 시간-채널 의존성을 무시합니다. 본 연구에서는 MHSA의 시간-채널 의존성 포착 능력을 강화하기 위해 시간-채널 모델링(TCM, Temporal-Channel Modeling) 모듈을 제안하였습니다. ASVspoof 2021 데이터셋에서 수행된 실험 결과, TCM 모듈이 단 0.03M 추가 매개변수로 최신 기술 대비 EER(Equal Error Rate)에서 9.25% 개선된 성능을 보였습니다. 추가적인 분석 실험(ablation study) 결과, 시간 정보와 채널 정보를 모두 활용할 때 합성 음성 검출 성능이 가장 크게 향상됨을 확인할 수 있었습니다.

다중 헤드 자기 주의 메커니즘에서 합성 음성 검출을 위한 시간-채널 모델링 | 최신 연구 논문 | HyperAI초신경