11日前
wav2vec 2.0とデータ拡張を用いた自動話者認証スプーフィング検出およびデジタルフェイク検出
Hemlata Tak, Massimiliano Todisco, Xin Wang, Jee-weon Jung, Junichi Yamagishi, Nicholas Evans

要約
スプーフィング対策システムの性能は、十分に代表的な訓練データの使用に根本的に依存している。しかし、通常このようなデータは限られているため、現在の解決策は実際の攻撃環境(=「ワイルド」な状況)で遭遇する攻撃に対して一般化能力を欠いている。制御不能で予測困難な攻撃に対して信頼性を高めるための戦略が今後必要となる。本論文では、微調整(fine tuning)を用いたwav2vec 2.0フロントエンドを用いた自己教師学習(self-supervised learning)の活用に向けた取り組みを報告する。初期のベース表現は、スプーフィングデータを一切使用せずに本物のデータ(bona fide data)のみで学習されたにもかかわらず、ASVspoof 2021 Logical AccessおよびDeepfakeデータベースの両方において、文献に報告された最低の等誤差率(Equal Error Rate, EER)を達成した。さらにデータ拡張を組み合わせた場合、ベースラインシステムと比較して、約90%の相対的性能向上が得られた。