16日前

XLSR-Mamba:スプーフィング攻撃検出のためのデュアルカラム双向状態空間モデル

Yang Xiao, Rohan Kumar Das
XLSR-Mamba:スプーフィング攻撃検出のためのデュアルカラム双向状態空間モデル
要約

トランスフォーマーおよびその派生モデルは、音声処理分野において大きな成功を収めてきた。しかし、そのマルチヘッド自己注意(multi-head self-attention)機構は計算コストが高いため、効率的な代替手法の開発が求められている。このような背景から、新しい選択的状態空間モデル(selective state space model)であるMambaが提案された。自動音声認識(ASR)分野での成功を踏まえ、本研究ではMambaをなりすまし攻撃検出に応用する。Mambaは長さの長い音声シーケンスを効果的に処理でき、なりすまし音声信号に含まれる偽造特徴(artifacts)を捉える能力に優れているため、このタスクに適している。一方で、ラベル付きデータが限られる条件下ではMambaの性能が低下する可能性がある。これを緩和するため、本研究では、双列構造(dual-column architecture)を採用した新規Mamba構造と、事前学習済みのwav2vec 2.0モデルを用いた自己教師学習(self-supervised learning)を組み合わせる手法を提案する。実験の結果、提案手法はASVspoof 2021 LAおよびDFデータセットにおいて競争力のある性能と高速な推論を達成した。さらに、より困難なIn-the-Wildデータセットにおいても、最も有望ななりすまし攻撃検出手法として浮上した。本研究の実装コードは、GitHubにて公開されている(https://github.com/swagshaw/XLSR-Mamba)。

XLSR-Mamba:スプーフィング攻撃検出のためのデュアルカラム双向状態空間モデル | 最新論文 | HyperAI超神経