6ヶ月前

概要

ディープニューラルネットワーク（DNN）と隠れマルコフモデル（HMM）を組み合わせたDNN-HMMベースの手法は、デバイスの起動をトリガーするためのウェイクワード検出を実現する、多くの「常時監視型キーワード検出（keyword spotting）」アルゴリズムで成功裏に活用されてきた。この手法では、DNNが入力された音声フレームの状態確率を予測し、HMMデコーダーが複数の音声フレームに対するDNNの予測結果を統合してキーワード検出スコアを計算する。従来の手法では、DNNはHMMパラメータとは独立して学習され、予測された状態確率と真の状態確率との間の交差エントロピー損失を最小化するように訓練されていた。しかし、DNNの学習損失（交差エントロピー）と最終的な評価指標（検出スコア）との間に生じる不一致が、キーワード検出タスクにおける最適性能達成の主な障壁となっている。本研究では、検出スコアを最適化することを目的とした、新たなエンド・ツー・エンド学習戦略を提案する。この戦略により、HMMデコーダー（動的計画法）を微分可能にし、その逆伝播を実施することで、キーワード音声のスコアを最大化しつつ、非キーワード音声セグメントのスコアを最小化するDNNパラメータを学習する。本手法はモデルアーキテクチャや推論フレームワークに何ら変更を加える必要がなく、実行時におけるメモリや計算リソースの追加負荷も発生しない。さらに、独立したDNN学習と比較して、同じ偽トリガー率（false trigger rate）を維持した状態で、偽拒否率（FRR）が顕著に低下することを実証した（改善率70％以上）。

ソースPDF