17일 전

전이 학습을 이용한 깊은 합성곱 신경망을 통한 오디오 스푸핑 검증

Rahul T P, P R Aravind, Ranjith C, Usamath Nechiyil, Nandakumar Paramparambath
전이 학습을 이용한 깊은 합성곱 신경망을 통한 오디오 스푸핑 검증
초록

최근 자동 화자 인증(Automatic Speaker Verification, ASV) 시스템이 점점 인기를 끌고 있지만, 이러한 시스템은 위조 공격(spoofing attacks)에 취약해지는 문제가 주요 우려 사항이 되고 있다. 예를 들어, 재생 공격(replay attack)과 같은 일부 위조 공격은 구현이 비교적 쉬우나 탐지가 매우 어려워 적절한 대응 전략의 필요성이 절실하다. 본 논문에서는 심층 컨볼루션 신경망(deep-convolutional neural network) 기반의 음성 분류기 모델을 제안하여 위조 공격을 탐지하고자 한다. 제안하는 방법론은 멜 주파수 척도(Mel frequency scale) 기반의 파워 스펙트럼 밀도(power spectral densities)의 음향 시간-주파수 표현(Mel-spectrogram)을 활용하며, 심층 잔차 학습(deep residual learning) 기법을 적용한 ResNet-34 아키텍처의 변형을 사용한다. 단일 모델 시스템을 통해 논리적 접근(logical access) 시나리오에서 개발 데이터셋 및 평가 데이터셋에 대해 각각 0.9056%, 5.32%의 동등 오류율(Equal Error Rate, EER)을 달성하였으며, 물리적 접근(physical access) 시나리오에서는 개발 데이터셋 및 평가 데이터셋에 대해 각각 5.87%, 5.74%의 EER을 기록하였다. 이는 ASVspoof 2019 데이터셋 기준으로 매우 높은 성능을 의미한다.

전이 학습을 이용한 깊은 합성곱 신경망을 통한 오디오 스푸핑 검증 | 최신 연구 논문 | HyperAI초신경