HyperAIHyperAI

Command Palette

Search for a command to run...

マルチモーダル情報統合による音声スプーフィング検出

Lei Shi Bin Wu Huawei Song Hao Zhou Junxiao Xue

概要

近年、発話者認証システムは多くの実用的場面で活用されている。しかし、音声合成攻撃やリプレイ攻撃など、さまざまなスプーフィング攻撃に対して依然として極めて脆弱である。研究者たちはこれらの攻撃に対抗するため、多数の手法を提案してきたが、従来の手法では主に音声特徴に注目しているにとどまっている。最近の研究において、音声には顔に関する多くの情報を含んでいることが明らかになった。実際、声によって発話者の性別、年齢、口の形などの情報を推定することが可能である。これらの情報は、スプーフィング攻撃の識別に有効に活用できる。この現象に着想を得て、本研究では汎用的なフレームワークとしてGACMNetを提案する。異なる攻撃シナリオに対応するため、2種類の異なるモデルを構築した。本フレームワークは、データ前処理フェーズ、特徴抽出フェーズ、特徴融合フェーズ、分類フェーズの4段階に分けられる。具体的には、2本のブランチから構成されている。一方では、畳み込みニューラルネットワーク(CNN)を用いて音声から顔特徴を抽出する。他方では、密接接続ネットワーク(DenseNet)を用いて音声特徴を抽出する。さらに、各特徴部分の重要度を区別できるように、グローバルアテンションに基づく情報融合機構を設計した。本手法は、2つの大規模なシナリオにおいて有効性が実証された。従来の手法と比較して、論理的アクセス(logical access)シナリオでは、タンドム決定コスト関数(t-DCF)と等誤差率(EER)がそれぞれ9%および11%改善された。また、物理的アクセス(physical access)シナリオではEERが10%改善された。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています