8ヶ月前

音声および音声処理

ディープラーニング

James Lin Kevin Kilgour Dominik Roblek Matthew Sharifi

概要

低消費電力の音声有効デバイスの普及に伴い、任意のキーワードセットを迅速に認識できるモデルの開発ニーズが高まっている。多くの機械学習タスクと同様、モデル作成プロセスにおける最も困難な課題の一つは、十分な量の訓練データを入手することである。本論文では、約40万パラメータの小型音声語句検出モデル（spoken term detection model）の訓練に、合成音声データの有効性を検証する。音声やMFCC（Mel周波数ケプストラム係数）といった低レベル特徴量に直接モデルを訓練するのではなく、キーワード検出モデルに有用な特徴量を抽出できるように事前学習された音声埋め込みモデル（speech embedding model）を活用する。この音声埋め込みを用いることで、合成音声データのみで学習したモデルが10個のキーワードを検出する性能は、500例以上の実音声データで学習したモデルと同等であることを示した。また、本研究の音声埋め込みを用いないモデルでは、同等の精度に達するためには4000例以上の実音声データでの学習が必要であることを明らかにした。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

8ヶ月前

音声および音声処理

ディープラーニング

James Lin Kevin Kilgour Dominik Roblek Matthew Sharifi

概要

低消費電力の音声有効デバイスの普及に伴い、任意のキーワードセットを迅速に認識できるモデルの開発ニーズが高まっている。多くの機械学習タスクと同様、モデル作成プロセスにおける最も困難な課題の一つは、十分な量の訓練データを入手することである。本論文では、約40万パラメータの小型音声語句検出モデル（spoken term detection model）の訓練に、合成音声データの有効性を検証する。音声やMFCC（Mel周波数ケプストラム係数）といった低レベル特徴量に直接モデルを訓練するのではなく、キーワード検出モデルに有用な特徴量を抽出できるように事前学習された音声埋め込みモデル（speech embedding model）を活用する。この音声埋め込みを用いることで、合成音声データのみで学習したモデルが10個のキーワードを検出する性能は、500例以上の実音声データで学習したモデルと同等であることを示した。また、本研究の音声埋め込みを用いないモデルでは、同等の精度に達するためには4000例以上の実音声データでの学習が必要であることを明らかにした。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています