2달 전

그린 AI를 활용한 오디오 딥페이크 검출 연구

Saha, Subhajit ; Sahidullah, Md ; Das, Swagatam
그린 AI를 활용한 오디오 딥페이크 검출 연구
초록

최신 오디오 딥페이크 감지기들은 딥 뉴럴 네트워크를 활용하여 뛰어난 인식 성능을 보여줍니다. 그러나 이 장점은 상당한 탄소 발자국을 동반합니다. 이는 주로 고성능 컴퓨팅과 가속기의 사용, 그리고 긴 학습 시간 때문입니다. 연구에 따르면 평균적인 딥 NLP 모델이 약 626,000 파운드의 CO\textsubscript{2}를 배출하며, 이는 평균 미국 자동차의 수명 기간 동안 배출되는 탄소량의 다섯 배에 해당합니다. 이는 분명 환경에 대한 큰 위협입니다. 이러한 도전 과제를 해결하기 위해 본 연구에서는 표준 CPU 리소스를 이용해 원활하게 학습할 수 있는 새로운 오디오 딥페이크 감지 프레임워크를 제시합니다. 제안된 프레임워크는 공개 저장소에서 제공되는 사전 학습된 자기 지도 학습(SSL) 기반 모델들을 활용합니다. 기존 방법들이 SSL 모델을 미세 조정(fine-tune)하고 추가적인 딥 뉴럴 네트워크를 사용하여 하류 작업(downstream task)을 수행하는 것과 달리, 우리는 사전 학습된 모델에서 추출한 SSL 임베딩을 사용하여 로지스틱 회귀와 얕은 신경망 등의 전통적인 머신러닝 알고리즘을 활용합니다. 우리의 접근 방식은 일반적으로 사용되는 고탄소 발자국 접근 방식과 비교하여 경쟁력 있는 결과를 보여줍니다. ASVspoof 2019 LA 데이터셋을 이용한 실험에서, 우리는 1,000개 미만의 학습 가능한 모델 매개변수로 0.90%의 동일 오류율(EER)을 달성했습니다. 이 방향으로 더 많은 연구를 촉진하고 재현 가능한 결과를 지원하기 위해, Python 코드는 승인 후 공개될 예정입니다. Github: https://github.com/sahasubhajit/Speech-Spoofing-

그린 AI를 활용한 오디오 딥페이크 검출 연구 | 최신 연구 논문 | HyperAI초신경