
要約
音声活動検出(Voice Activity Detection: VAD)は、さまざまな音声処理システムにおける重要な前処理コンポーネントとしてその重要性を増している。これらのシステムは多様なノイズタイプや低信号対雑音比(SNR)が特徴的な環境に展開されることが一般的であるため、ノイズ混在の背景信号の中から音声領域を堅牢に検出できるVAD手法が求められている。本稿では、多様なノイズタイプおよび低SNR環境下においても高い耐性を示す深層ニューラルネットワーク(DNN)ベースのVAD手法である「敵対的ドメイン適応VAD(Adversarial Domain Adaptive VAD: ADA-VAD)」を提案する。本手法は、VADタスクに対して教師あり学習によりDNNモデルを訓練する一方で、背景ノイズによる性能低下を軽減するため、教師なしのアプローチとして敵対的ドメイン適応(adversarial domain adaptation)を導入し、ノイズ混在音声とクリーン音声のドメイン間の乖離を効果的に補正する。実験結果から、AVA-speechデータセットおよび未知のノイズデータベースを用いて合成された音声データベースにおいて、ADA-VADは手動で抽出された特徴量を用いて訓練されたモデルと比較して、それぞれ平均で3.6%pおよび7%p高いAUC値を達成した。