16日前

XLSR-Mamba：スプーフィング攻撃検出のためのデュアルカラム双向状態空間モデル

Yang Xiao, Rohan Kumar Das

要約

トランスフォーマーおよびその派生モデルは、音声処理分野において大きな成功を収めてきた。しかし、そのマルチヘッド自己注意（multi-head self-attention）機構は計算コストが高いため、効率的な代替手法の開発が求められている。このような背景から、新しい選択的状態空間モデル（selective state space model）であるMambaが提案された。自動音声認識（ASR）分野での成功を踏まえ、本研究ではMambaをなりすまし攻撃検出に応用する。Mambaは長さの長い音声シーケンスを効果的に処理でき、なりすまし音声信号に含まれる偽造特徴（artifacts）を捉える能力に優れているため、このタスクに適している。一方で、ラベル付きデータが限られる条件下ではMambaの性能が低下する可能性がある。これを緩和するため、本研究では、双列構造（dual-column architecture）を採用した新規Mamba構造と、事前学習済みのwav2vec 2.0モデルを用いた自己教師学習（self-supervised learning）を組み合わせる手法を提案する。実験の結果、提案手法はASVspoof 2021 LAおよびDFデータセットにおいて競争力のある性能と高速な推論を達成した。さらに、より困難なIn-the-Wildデータセットにおいても、最も有望ななりすまし攻撃検出手法として浮上した。本研究の実装コードは、GitHubにて公開されている（https://github.com/swagshaw/XLSR-Mamba）。