Command Palette

Search for a command to run...

4ヶ月前

野生における合成音声検出における「少即是多」

{Nicholas Andrews Matthew Wiesner Sanjeev Khudanpur Kevin Duh Leibny Paola García-Perera Henry Li Xinyuan Zexin Cai Ashi Garg}

野生における合成音声検出における「少即是多」

要約

音声における自己教師学習の進展に伴い、最先端の合成音声検出器は、ASVspoofなどの一般的なベンチマークにおいて低誤検出率を達成している。しかし、従来のベンチマークは実世界における音声の多様性を十分に反映していない。報告された誤検出率は、実際の運用環境においても現実的と言えるのだろうか? 検出器の失敗モードや分布シフトに伴うロバスト性を制御された条件下で評価するため、本研究では、7つのドメイン、6つのTTSシステム、12種類のボコーダ、3言語から構成され、合計3000時間以上の合成音声データを含む「ShiftySpeech」という新たなベンチマークを提案する。実験の結果、すべての分布シフトがモデル性能を低下させることを確認した。また、従来の知見とは異なり、より多くのボコーダや話者、あるいはデータ拡張を用いた学習が、より良い一般化を保証するわけではないことが明らかになった。むしろ、データの多様性が低い条件下で学習したモデルの方が、より優れた一般化性能を示した。特に、1つの慎重に選定されたボコーダと少数の話者からのサンプルのみを用いて、データ拡張を一切行わずにモデルを適合させた場合、困難な「In-the-Wild」ベンチマークにおいても最先端の性能を達成した。

コードリポジトリ

Ashigarg123/ShiftySpeech
公式
pytorch
GitHubで言及

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング
すぐに使える GPU
最適価格
今すぐ始める

Hyper Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
野生における合成音声検出における「少即是多」 | 論文 | HyperAI超神経