11일 전

XLSR-Mamba: 위조 공격 탐지용 이중 열 양방향 상태 공간 모델

Yang Xiao, Rohan Kumar Das
XLSR-Mamba: 위조 공격 탐지용 이중 열 양방향 상태 공간 모델
초록

트랜스포머 및 그 변종들은 음성 처리 분야에서 큰 성공을 거두었으나, 다중 헤드 자기주의(self-attention) 메커니즘이 계산 비용이 높다는 단점이 있다. 이를 해결하기 위해, 새로운 선택적 상태 공간 모델인 Mamba가 제안되었다. 자동 음성 인식(Automatic Speech Recognition, ASR) 분야에서의 성공을 바탕으로, 본 연구에서는 Mamba를 위조 공격 탐지에 적용한다. Mamba는 긴 길이의 시퀀스를 효과적으로 처리할 수 있어 위조 음성 신호 내의 아티팩트를 잘 포착할 수 있어 이 작업에 적합하다. 그러나 레이블이 제한된 데이터로 학습할 경우 Mamba의 성능이 저하될 수 있다. 이를 완화하기 위해, 이중 컬럼 구조(dual-column architecture)를 기반으로 한 새로운 Mamba 구조를 자율학습(self-supervised learning)과 결합하는 방안을 제안한다. 이 과정에서 사전 학습된 wav2vec 2.0 모델을 활용한다. 실험 결과, 제안한 방법은 ASVspoof 2021 LA 및 DF 데이터셋에서 경쟁력 있는 성능과 빠른 추론 속도를 보였으며, 더 도전적인 In-the-Wild 데이터셋에서는 위조 공격 탐지 분야에서 가장 강력한 후보로 부상했다. 코드는 공개적으로 GitHub에서 제공되며, 주소는 https://github.com/swagshaw/XLSR-Mamba이다.

XLSR-Mamba: 위조 공격 탐지용 이중 열 양방향 상태 공간 모델 | 최신 연구 논문 | HyperAI초신경