11日前

Bts-e:呼吸・発話・沈黙エンコーダを用いたオーディオディープフェイク検出

{Kihun Hong, Souhwan Jung, Long Nguyen-Vu, Thien-Phuc Doan}
要約

音声詐欺(vishing)は、音声合成技術の発展によりますます広がりを見せている。特に、深層学習を用いて被害者の声を模倣した任意の内容の音声を生成する手法が登場したことで、人間だけでなく自動音声話者認証(ASV)システムに対しても区別が困難な状況が生じている。こうした状況に対応するため、近年、合成音声に対する対策(CM)システムが開発されている。本研究では、音声クリップ内の「呼吸音」「発話音(会話)」「沈黙音」の間の相関関係を評価するフレームワーク「BTS-E」を提案する。その後、得られた情報を深偽音声(deepfake)検出タスクに活用する。我々は、自然な人間の音声、特に呼吸音は、テキストから音声への変換(TTS)システムによって正確に再現することが難しいと主張する。この仮説の検証のため、ASVspoof 2019および2021の評価データセットを用いた大規模な評価を実施した。実験の結果、呼吸音特徴が深偽音声の検出に有効であることが示された。一般的に、提案するシステムにより、分類器の性能が最大46%向上することが確認された。

Bts-e:呼吸・発話・沈黙エンコーダを用いたオーディオディープフェイク検出 | 最新論文 | HyperAI超神経