
生成型AI技術、特にテキストから音声への変換(TTS)や音声変換(VC)は、本物の音声サンプルと区別がつかないほど高精度に再現されることが多く、個人が本物と合成コンテンツを識別する上で大きな課題を呈している。このような区別不能性はメディアに対する信頼を損なう一方で、個人の音声信号を任意にクラーニングするリスクは、プライバシーおよびセキュリティの観点から深刻な問題を引き起こしている。深偽音声(deepfake audio)検出分野において、現在高い検出精度を達成している多数のモデルは、自己教師付き事前学習モデルを活用している。しかし、深偽音声生成アルゴリズムの継続的な進化に伴い、新たな生成手法に対する高い識別精度を維持することはますます困難になっている。本研究では、深偽音声特徴の感度を向上させるために、SLS(Sensitive Layer Selection:感度層選択)モジュールを組み込んだ深偽音声検出モデルを提案する。具体的には、事前学習済みのXLS-Rを用いることで、音声の複数層から多様な特徴量を抽出可能となる。各層は異なる識別的情報を提供するため、SLS分類器を活用することで、音声特徴の異なる層レベルにおける感度の高い文脈情報を効果的に捉え、偽音声検出に有効に活用することができる。実験結果によれば、本手法はASVspoof 2021 DFおよびIn-the-Wildの両データセットにおいて、現在の最先端(SOTA)性能を達成しており、ASVspoof 2021 DFデータセットでは等誤差率(EER)1.92%、In-the-Wildデータセットでは7.46%の精度を実現した。コードおよびデータは、https://github.com/QiShanZhang/SLSforADD にて公開されている。