HyperAI초신경

ShiftySpeech는 존스홉킨스 대학교에서 2025년에 발표한 대규모 합성 음성 탐지 벤치마크입니다. 관련 논문의 제목은 "ShiftySpeech: 분포 변화를 가진 대규모 합성 음성 데이터셋"입니다. 이 논문은 언어, 화자, 세대 모델, 녹음 조건의 변화 등 "분포 변화"에 직면했을 때 실제 환경에서 음성 합성 탐지 모델의 일반화 능력을 연구하는 것을 목표로 합니다.

이 데이터 세트에는 3,000시간 이상의 합성 음성 데이터가 포함되어 있으며, 읽기 스타일, 팟캐스트, YouTube 녹음, 배경 소음이나 비표준 녹음 조건이 있는 기타 시나리오, 그리고 언어, 화자 연령, 억양, 성별의 차이를 포함한 7개 소스 도메인을 포괄합니다. 이 데이터는 세 가지 언어(영어, 중국어, 일본어)를 포함하며, 6개의 TTS(텍스트 음성 변환) 시스템과 12개의 보코더(보코더/파형 생성기)를 사용하여 다양한 수준의 시스템 분포 드리프트를 생성했습니다.