要約
スプーフィングに強い発話者認証技術は、不正な試みから音声ベースの認証システムを保護する目的で用いられる。このようなシステムは、偽造された音声セグメントを検出するとともに、本物と識別された音声セグメントが実際に発話者本人から発せられたものであることを確認できる必要がある。本研究では、時間領域における波形振幅の確率質量関数(probability mass function)に基づく、解釈可能な埋め込み表現を採用している。実験結果から、カウンターメージャ(CM)システムの性能は性別依存型にすることで向上することが明らかになった。評価にはASVspoof2019チャレンジの論理的アクセス(LA)データベースが使用された。性別依存型CMシステムは、男性音声に対して評価セットにおいて等誤差率(EER)9.2%、女性音声に対して10.1%を達成した。これに対し、性別独立型のCMシステムではEERが10.2%にとどまった。さらに、タンドム評価(t-DCF)に基づく検出コスト関数で評価した場合、性別依存型システムは0.262、性別独立型システムは0.328を示し、性別依存型が優れた性能を発揮することが確認された。