16日前

エンドツーエンド分光時空間グラフアテンションネットワークを用いた発話者認証のスプーフィング対策および音声ディープフェイク検出

Hemlata Tak, Jee-weon Jung, Jose Patino, Madhu Kamble, Massimiliano Todisco, Nicholas Evans
エンドツーエンド分光時空間グラフアテンションネットワークを用いた発話者認証のスプーフィング対策および音声ディープフェイク検出
要約

本物の発話と偽造発話(スプーフ)またはディープフェイク発話を区別するための特徴量(アーティファクト)は、特定の周波数帯域(サブバンド)および時間的区間内に存在することが知られている。このようなアーティファクトを捉え、モデル化する手法は多様に提案されてきたが、あらゆる種類の偽造攻撃に対して一貫して高い性能を発揮する手法はまだ存在しない。そのため、信頼性の高い検出には、異なる攻撃形態に対応する複数の検出システムを統合するアプローチが一般的である。本論文では、モデル内部で統合(フュージョン)を行うことで、より優れた性能が達成できることを示す。さらに、生波形入力から表現を自動的に学習するアプローチが有効であることを実証する。本研究の主な貢献は、異なるサブバンドおよび時間区間にわたる特徴間の関係を学習するスペクトロ・テンポラルグラフ注意ネットワーク(GAT)の提案である。スペクトル(S)および時間(T)のサブグラフをモデルレベルでグラフ統合し、グラフプーリング戦略を用いて識別性能を向上させることで、提案するRawGAT-STモデルはASVspoof 2019ロジカルアクセスデータベースにおいて等誤差率(EER)1.06%を達成した。これは、これまでに報告された最高水準の結果の一つであり、オープンソース実装を用いて再現可能である。