11日前

SG-VAD:確率的ゲートを用いた音声活動検出

Jonathan Svirsky, Ofir Lindenbaum
SG-VAD:確率的ゲートを用いた音声活動検出
要約

低リソース環境における新たな音声活動検出(VAD)モデルを提案する。本研究の核心的なアイデアは、VADをノイズ除去タスクとして定式化し、音声分類タスクにおける不要な特徴量を識別することを目的としたネットワークを構築することにある。本モデルは、音声イベントの種類を予測する一方で、関係のない特徴量の同定も同時に行うように学習される。モデルのパラメータ数はわずか7.8Kであり、AVA-Speech評価セットにおいて従来提案された手法を上回る性能を発揮し、HAVICデータセットにおいても競争力のある結果を示している。本稿では、モデルのアーキテクチャ、実験結果および各構成要素の消去研究(ablation study)を提示する。コードおよびモデルは、https://www.github.com/jsvir/vad にて公開している。

SG-VAD:確率的ゲートを用いた音声活動検出 | 最新論文 | HyperAI超神経