Command Palette
Search for a command to run...
限定されたおよび合成された音声データを用いたKeyword Spottersの訓練
限定されたおよび合成された音声データを用いたKeyword Spottersの訓練
James Lin Kevin Kilgour Dominik Roblek Matthew Sharifi
概要
低消費電力の音声有効デバイスの普及に伴い、任意のキーワードセットを迅速に認識できるモデルの開発ニーズが高まっている。多くの機械学習タスクと同様、モデル作成プロセスにおける最も困難な課題の一つは、十分な量の訓練データを入手することである。本論文では、約40万パラメータの小型音声語句検出モデル(spoken term detection model)の訓練に、合成音声データの有効性を検証する。音声やMFCC(Mel周波数ケプストラム係数)といった低レベル特徴量に直接モデルを訓練するのではなく、キーワード検出モデルに有用な特徴量を抽出できるように事前学習された音声埋め込みモデル(speech embedding model)を活用する。この音声埋め込みを用いることで、合成音声データのみで学習したモデルが10個のキーワードを検出する性能は、500例以上の実音声データで学習したモデルと同等であることを示した。また、本研究の音声埋め込みを用いないモデルでは、同等の精度に達するためには4000例以上の実音声データでの学習が必要であることを明らかにした。