FastAudio: 学習可能な音声フロントエンドspoofスピーチ検出向け

音声アシスタント、例えばスマートスピーカーは、人気を急速に高めています。現在の推定では、アメリカの成人人口におけるスマートスピーカーの普及率が35%を超えたとされています。製造業者は、同一世帯内の異なるメンバーに対してパーソナライズされたサービスを提供するために、話者識別技術を統合しています。この技術は、スマートスピーカーの使用方法を制御する上で重要な役割も果たします。例えば、音楽を再生する際にはユーザーの正確な識別はそれほど重要ではありませんが、ユーザーのメールを読み上げる際には、要求を行っている話者が認証済みのユーザーであることを正確に確認することが重要です。したがって、話者認証システム(話者のアイデンティティを認証するシステム)が必要となり、様々ななりすまし攻撃から保護するためにゲートキーパーとして機能します。本論文では、下流タスクとの共同学習により音声の表現を学習する一般的な学習可能なフロントエンド(End-to-End)について比較しています。フロントエンドを2つの一般的なアーキテクチャで分類し、両タイプのフィルタリングステージについて学習制約の観点から分析しています。固定フィルタバンクを反なりすまし任務に適応できる学習可能な層に置き換えることを提案します。提案されたFastAudioフロントエンドは、ASVspoof 2019データセットのLAトラックで2つの一般的なバックエンドと共にテストされ、性能が測定されました。FastAudioフロントエンドは固定フロントエンドと比較して相対的に27%の改善を達成し、この任務において他のすべての学習可能なフロントエンドを上回りました。注:「反なりすまし任務」は「anti-spoofing tasks」に対応する日本語表現であり、「なりすまし防止任務」としても使用できます。