Command Palette
Search for a command to run...
{Nicholas Andrews Matthew Wiesner Sanjeev Khudanpur Kevin Duh Leibny Paola García-Perera Henry Li Xinyuan Zexin Cai Ashi Garg}

要約
音声における自己教師学習の進展に伴い、最先端の合成音声検出器は、ASVspoofなどの一般的なベンチマークにおいて低誤検出率を達成している。しかし、従来のベンチマークは実世界における音声の多様性を十分に反映していない。報告された誤検出率は、実際の運用環境においても現実的と言えるのだろうか? 検出器の失敗モードや分布シフトに伴うロバスト性を制御された条件下で評価するため、本研究では、7つのドメイン、6つのTTSシステム、12種類のボコーダ、3言語から構成され、合計3000時間以上の合成音声データを含む「ShiftySpeech」という新たなベンチマークを提案する。実験の結果、すべての分布シフトがモデル性能を低下させることを確認した。また、従来の知見とは異なり、より多くのボコーダや話者、あるいはデータ拡張を用いた学習が、より良い一般化を保証するわけではないことが明らかになった。むしろ、データの多様性が低い条件下で学習したモデルの方が、より優れた一般化性能を示した。特に、1つの慎重に選定されたボコーダと少数の話者からのサンプルのみを用いて、データ拡張を一切行わずにモデルを適合させた場合、困難な「In-the-Wild」ベンチマークにおいても最先端の性能を達成した。
コードリポジトリ
Ashigarg123/ShiftySpeech
公式
pytorch
GitHubで言及