2ヶ月前

時間チャネルモデリングを用いた多頭自己注意機構における合成音声検出

Truong, Duc-Tuan ; Tao, Ruijie ; Nguyen, Tuan ; Luong, Hieu-Thi ; Lee, Kong Aik ; Chng, Eng Siong
時間チャネルモデリングを用いた多頭自己注意機構における合成音声検出
要約

最近の合成音声検出器において、Transformerモデルを活用したものは、畳み込みニューラルネットワーク(CNN)と比較して優れた性能を示しています。この改善は、Transformerモデル内のマルチヘッド自己注意機構(Multi-Head Self-Attention: MHSA)が各入力トークンの時間的な関係を学習する強力なモデリング能力に起因すると考えられます。しかし、合成音声のアーティファクトは周波数チャネルと時間セグメントの特定の領域に位置することが多く、MHSAはこの入力シーケンスの時間-チャネル依存性を無視しています。本研究では、MHSAの能力を向上させるために、時間-チャネルモデリング(Temporal-Channel Modeling: TCM)モジュールを提案しました。ASVspoof 2021での実験結果によると、追加パラメータがわずか0.03Mであるにもかかわらず、TCMモジュールは最新のシステムよりもEERで9.25%高い性能を達成しました。さらに、アブレーションスタディにより、時間情報とチャネル情報を両方利用することで合成音声検出に最大の改善がもたらされることが明らかになりました。