17日前

重要となるものを最適化する:エンドメトリクスを用いたDNN-HMMキーワードスポットティングモデルの訓練

Ashish Shrivastava, Arnav Kundu, Chandra Dhir, Devang Naik, Oncel Tuzel
重要となるものを最適化する:エンドメトリクスを用いたDNN-HMMキーワードスポットティングモデルの訓練
要約

ディープニューラルネットワーク(DNN)と隠れマルコフモデル(HMM)を組み合わせたDNN-HMMベースの手法は、デバイスの起動をトリガーするためのウェイクワード検出を実現する、多くの「常時監視型キーワード検出(keyword spotting)」アルゴリズムで成功裏に活用されてきた。この手法では、DNNが入力された音声フレームの状態確率を予測し、HMMデコーダーが複数の音声フレームに対するDNNの予測結果を統合してキーワード検出スコアを計算する。従来の手法では、DNNはHMMパラメータとは独立して学習され、予測された状態確率と真の状態確率との間の交差エントロピー損失を最小化するように訓練されていた。しかし、DNNの学習損失(交差エントロピー)と最終的な評価指標(検出スコア)との間に生じる不一致が、キーワード検出タスクにおける最適性能達成の主な障壁となっている。本研究では、検出スコアを最適化することを目的とした、新たなエンド・ツー・エンド学習戦略を提案する。この戦略により、HMMデコーダー(動的計画法)を微分可能にし、その逆伝播を実施することで、キーワード音声のスコアを最大化しつつ、非キーワード音声セグメントのスコアを最小化するDNNパラメータを学習する。本手法はモデルアーキテクチャや推論フレームワークに何ら変更を加える必要がなく、実行時におけるメモリや計算リソースの追加負荷も発生しない。さらに、独立したDNN学習と比較して、同じ偽トリガー率(false trigger rate)を維持した状態で、偽拒否率(FRR)が顕著に低下することを実証した(改善率70%以上)。