17日前
複数エンロール発話を用いた自動話者証明におけるアテンションバックエンド
Chang Zeng, Xin Wang, Erica Cooper, Xiaoxiao Miao, Junichi Yamagishi

要約
従来の話者識別システムでは、ペアワイズな類似度を測定するバックエンド技術として、確率的線形判別分析(PLDA)やコサイン類似度が広く用いられてきた。複数の登録音声をより効果的に活用するため、本研究では、テキスト非依存(TI)およびテキスト依存(TD)の両方の話者識別に適用可能な新しいアテンションバックエンドモデルを提案する。このモデルは、登録音声間の内部関係を学習するため、スケーリングドット自己アテンション(scaled-dot self-attention)とフィードフォワード自己アテンションネットワークをアーキテクチャとして採用している。提案モデルの有効性を検証するため、TDNNやResNetを含む複数の最先端話者エンコーダと組み合わせ、CNCelebおよびVoxCelebデータセット上で一連の実験を実施した。CNCelebデータセットにおける複数登録音声を用いた実験結果から、各話者エンコーダに対して、PLDAやコサイン類似度と比較して、本モデルがより低いEER(等誤り率)およびminDCFスコアを達成することが明らかになった。また、VoxCelebデータセットにおける実験結果から、単一登録音声ケースにおいても本モデルが有効に利用可能であることが示された。