
초록
음성 영역에서 생성형 AI의 활용이 개인 간 음성 클로닝 및 실시간 음성 변환을 가능하게 함에 따라, 이 기술은 중요한 윤리적 위협을 내포하고 있으며 프라이버시 침해와 잘못된 표현으로 이어질 수 있으므로 딥페이크 음성 변환에 대한 AI 생성 음성의 실시간 감지가 시급합니다. 이러한 새로운 문제들을 해결하기 위해 본 연구에서는 8명의 유명 인사들의 실제 인간 음성과 이를 서로 변환한 데이터를 포함하는 DEEP-VOICE 데이터셋을 생성하였습니다. 이는 음성이 실제인지 AI 생성인지 여부를 판단하는 이진 분류 문제로 제시되며, t-검사를 통한 시간적 오디오 특징의 통계적 분석 결과 상당히 다른 분포가 나타났습니다. 머신 러닝 모델에서 음성 출처를 식별하기 위해 하이퍼파라미터 최적화가 수행되었습니다. 208개의 개별 머신 러닝 모델을 10겹 교차 검증을 통해 학습한 결과, 극단 그래디언트 부스팅(Extreme Gradient Boosting) 모델이 평균 분류 정확도 99.3%를 달성하며, 1초 길이의 음성을 약 0.004밀리초 안에 실시간으로 분류할 수 있었습니다. 본 연구에서 생성된 모든 데이터는 향후 AI 음성 감지 연구를 위해 공개적으로 배포되었습니다.