音響モデルこれは、モデルによって生成される音声波形の確率を計算するために使用され、音声認識システムの最も重要な部分の 1 つであり、計算オーバーヘッドの大部分を占め、音声認識システムのパフォーマンスを決定します。
開発の歴史
- 従来の方法: GMM-HMM モデリング方法などの隠れマルコフに基づく音響モデル - GMM は音声音響特徴の分布をモデル化するために使用され、HMM は音声信号のタイミングをモデル化するために使用されます。
- ディープ ニューラル ネットワーク: 音声音響モデルについて、ヒントンと彼の学生は、2009 年に音声認識にフィードフォワード完全接続ディープ ニューラル ネットワークを使用しました。これは、DNN-HMM に基づく音響モデルよりも TIMIT データ セットで優れたパフォーマンスを発揮します。
- 可変長コンテキスト情報の利用: 2015 年に、可変長音声情報を利用する音響モデルが実用化されました。DNN-HMM ハイブリッドでは、音声情報の最適な長さは音素と音声速度に影響されます。システムは最良の選択ではありません。近年の新しいモデルは主にリカレント ニューラル ネットワーク RNN と畳み込みニューラル ネットワーク CNN です。
参考文献
【1】音声認識技術の音響モデル – 52AI 人工知能 – CSDN ブログ
【2】Tencent AI Lab 副所長 Yu Dong 氏: 過去 2 年間の深層学習に基づく音響モデルの進歩 | Heart of Machine