11日前

ハイブリッドCNN-BiLSTM音声活動検出器

Nicholas Wilkinson, Thomas Niesler
ハイブリッドCNN-BiLSTM音声活動検出器
要約

本稿では、エンド・ツー・エンドで学習可能な畳み込みニューラルネットワーク(CNN)と双方向長短期記憶(BiLSTM)層を組み合わせた新しいハイブリッドアーキテクチャを、音声活動検出(VAD)に適用する手法を提案する。さらに、極めてリソースが制限された環境下において、困難な「ワイルド(野外)」ノイズ条件下でも堅牢な性能を発揮できるよう、アーキテクチャの計算効率を特に最適化することに注力している。ハイパーパラメータ空間の探索にはネストされたk分割交差検証を用い、最適なパラメータとモデルサイズのトレードオフについて検討した。また、単方向LSTM層と比較してBiLSTM層がもたらす性能向上効果についても検証した。提案手法はAVA-Speechデータセット上で3つの既存ベースラインと比較された結果、最適なパラメータを用いて訓練された大きなモデルと同等の性能を、はるかに小さなモデルで達成できることが明らかになった。特に、BiLSTM層を用いることで、単方向層に比べて平均で約2%の絶対的な精度向上が確認された。AUC(曲線下面積)が0.951に達し、特に厳しいノイズ環境下において、より大きなResNetモデルを含むすべてのベースラインを上回る性能を示した。

ハイブリッドCNN-BiLSTM音声活動検出器 | 最新論文 | HyperAI超神経