Command Palette

Search for a command to run...

4달 전

야생에서의 합성 음성 탐지에서 '적은 것이 많다'

{Nicholas Andrews Matthew Wiesner Sanjeev Khudanpur Kevin Duh Leibny Paola García-Perera Henry Li Xinyuan Zexin Cai Ashi Garg}

야생에서의 합성 음성 탐지에서 '적은 것이 많다'

초록

음성 분야의 자기지도 학습 기술의 발전에 힘입어, 최신 합성 음성 탐지기들은 ASVspoof와 같은 주요 벤치마크에서 낮은 오류율을 달성하고 있다. 그러나 기존 벤치마크는 실제 환경에서 관찰되는 광범위한 음성 변동성을 충분히 반영하지 못하고 있다. 보고된 오류율은 실제 환경에서 실제로 실현 가능한가? 분포 변화가 통제된 조건에서 탐지기의 실패 유형과 견고성을 평가하기 위해, 우리는 7개의 도메인, 6개의 TTS 시스템, 12개의 보코더, 3개의 언어에서 나온 3,000시간 이상의 합성 음성 데이터를 포함하는 ShiftySpeech 벤치마크를 제안한다. 실험 결과, 모든 분포 변화가 모델 성능 저하를 초래했으며, 기존 연구와는 달리, 더 많은 보코더, 더 많은 화자, 또는 데이터 증강을 사용한 훈련이 항상 더 나은 일반화를 보장하지는 않았다. 오히려, 다각도가 적은 데이터로 훈련할 경우 더 나은 일반화 성능을 달성하는 경우가 있었으며, 특히 하나의 철저히 선택된 보코더와 소수의 화자 데이터만을 사용하고 데이터 증강 없이 모델을 적합시킨 경우, 도전적인 In-the-Wild 벤치마크에서 최신 기술 수준의 성능을 달성했다.

코드 저장소

Ashigarg123/ShiftySpeech
공식
pytorch
GitHub에서 언급됨

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩
즉시 사용 가능한 GPU
최적 가격
시작하기

Hyper Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
야생에서의 합성 음성 탐지에서 '적은 것이 많다' | 연구 논문 | HyperAI초신경