2ヶ月前
AASIST: 音声偽装対策に向けた統合スペクトロ-テンポラルグラフアテンションネットワークの利用
Jung, Jee-weon ; Heo, Hee-Soo ; Tak, Hemlata ; Shim, Hye-jin ; Chung, Joon Son ; Lee, Bong-Jin ; Yu, Ha-Jin ; Evans, Nicholas

要約
偽装音声と本物の発話を区別するための特徴は、スペクトル領域や時間領域に存在します。これらの特徴の信頼性のある検出には、通常、各サブシステムが特定の特徴に調整された計算負荷の高いアンサンブルシステムが必要です。私たちは、スコアレベルでのアンサンブルなしで広範な偽装攻撃を検出できる効率的な単一システムを開発することを目指しています。ここでは、異種の時間領域とスペクトル領域にわたる特徴を異種の注意メカニズムとスタックノードを使用してモデル化する新しい異種スタックグラフアテンション層を提案します。競合メカニズムを含む新しい最大グラフ操作と拡張されたリードアウトスキームにより、当社の手法であるAASIST(Artifact-Aware Stacking Graph Attention Layer for Spoofing Detection)は現行の最先端技術に対して相対的に20%以上の性能向上を達成しました。パラメータ数が85Kしかない軽量版AASIST-Lでも、すべての競合システムを上回っています。