13日前

マルチモーダル情報統合による音声スプーフィング検出

{Lei Shi, Bin Wu, Huawei Song, Hao Zhou, Junxiao Xue}
要約

近年、発話者認証システムは多くの実用的場面で活用されている。しかし、音声合成攻撃やリプレイ攻撃など、さまざまなスプーフィング攻撃に対して依然として極めて脆弱である。研究者たちはこれらの攻撃に対抗するため、多数の手法を提案してきたが、従来の手法では主に音声特徴に注目しているにとどまっている。最近の研究において、音声には顔に関する多くの情報を含んでいることが明らかになった。実際、声によって発話者の性別、年齢、口の形などの情報を推定することが可能である。これらの情報は、スプーフィング攻撃の識別に有効に活用できる。この現象に着想を得て、本研究では汎用的なフレームワークとしてGACMNetを提案する。異なる攻撃シナリオに対応するため、2種類の異なるモデルを構築した。本フレームワークは、データ前処理フェーズ、特徴抽出フェーズ、特徴融合フェーズ、分類フェーズの4段階に分けられる。具体的には、2本のブランチから構成されている。一方では、畳み込みニューラルネットワーク(CNN)を用いて音声から顔特徴を抽出する。他方では、密接接続ネットワーク(DenseNet)を用いて音声特徴を抽出する。さらに、各特徴部分の重要度を区別できるように、グローバルアテンションに基づく情報融合機構を設計した。本手法は、2つの大規模なシナリオにおいて有効性が実証された。従来の手法と比較して、論理的アクセス(logical access)シナリオでは、タンドム決定コスト関数(t-DCF)と等誤差率(EER)がそれぞれ9%および11%改善された。また、物理的アクセス(physical access)シナリオではEERが10%改善された。

マルチモーダル情報統合による音声スプーフィング検出 | 最新論文 | HyperAI超神経