17日前
HEiMDaL:ウェークワードの検出および局所化に向けた高効率手法
Arnav Kundu, Mohammad Samragh Razlighi, Minsik Cho, Priyanka Padmanabhan, Devang Naik

要約
ストリーミングキーワードスポットティングは、音声アシスタントの起動に広く用いられる手法である。深層ニューラルネットワーク(DNN)と隠れマルコフモデル(HMM)を組み合わせたDNN-HMMベースの手法は、低計算コストでウェイクワードの開始および終了を検出・識別できる点から、この分野で効率的かつ広く採用されている。しかし、DNNとHMMが独立して学習される場合、このようなハイブリッドシステムは損失関数の不一致(loss metric mismatch)に悩まされる。特に、HMMの固有のマルコフ型動作により、シーケンス判別的学習(sequence discriminative training)でも損失関数の不一致を完全に緩和することは困難である。本研究では、ストリーミング環境下でのキーワード検出と局在化を目的として、低フットプリントなCNNモデル「HEiMDaL」を提案する。本モデルは、キーワードの発生を検出するためのアライメントベース分類損失と、キーワードの開始位置を予測するためのオフセット損失を導入している。実験の結果、既存のDNN-HMMモデルと同等のメモリ使用量で、検出性能指標を73%削減しつつ、局在化精度は同等を維持することを確認した。