HyperAI超神経

自動音声認識自動音声認識

自動音声認識技術は、人間の音声をテキストに変換する技術であり、音声信号の多様性と複雑さにより、現在の音声認識システムでは一定の制約(特定の場面でしか適用できない)でしか満足のいく性能が得られません。

自動音声認識の定義

自動音声認識技術の目的は、さまざまな人が話した連続音声をコンピューターが「書き取り」できるようにすることであり、一般に「音声ディクテーション マシン」としても知られる「音声」を「テキスト」に変換する技術です。

パフォーマンス要因

音声認識システムのパフォーマンスは、一般に次の 4 種類の要因によって決まります。

  1. 語彙のサイズと音声の複雑さを認識します。
  2. 音声信号の品質。
  3. 単一のスピーカーまたは複数のスピーカー。
  4. ハードウェア。

自動音声認識分類

自動音声認識には通常、次の分類方法があります。

  1. システムの利用状況に応じた特定個人認証システムと非特定個人認証システム。
  2. システム語彙によると、小語彙、中語彙、大語彙システム。
  3. 音声の入力方法に応じて: 単独単語、接続単語、連続音声システムなど。
  4. 入力音声は発音方式に応じて、読み上げタイプ、話し言葉(自然発音)タイプ、および音声タイプに分けられます。
  5. 入力音声の方言背景に応じて、中国語、方言背景中国語、方言音声認識システムに分類されます。
  6. 入力音声の感情状態に応じて、中立音声認識システムと感情音声認識システムに分けられます。

自動音声認識モデル

主流の大語彙音声認識システムは、主に統計的パターン認識技術を使用します。統計的パターン認識手法に基づく一般的な音声認識システムは、次の基本モジュールで構成されます。

  • 信号処理および特徴抽出モジュール: このモジュールの主なタスクは、音響モデルによる処理のために入力信号から特徴を抽出することです。同時に、通常、環境ノイズ、チャンネル、スピーカー、その他の要素による機能への影響を最小限に抑えるためのいくつかの信号処理技術が含まれています。
  • 音響モデル: 一般的なシステムは、ほとんどが 1 次隠れマルコフ モデルに基づいてモデル化されています。
  • 発音辞書: 発音辞書には、システムが処理できる一連の単語とその発音が含まれています。発音辞書は、実際には、音響モデルモデリングユニットと言語モデルモデリングユニットとの間のマッピングを提供する。
  • 言語モデル: 言語モデルは、システムが設計されている言語をモデル化します。理論的には、言語モデルとして正規言語や文脈自由文法などのさまざまな言語モデルを使用できますが、現在、さまざまなシステムでは統計ベースの N グラムとその亜種が一般的に使用されています。
  • デコーダ: デコーダは音声認識システムの中核の 1 つであり、その役割は、音響、言語モデル、辞書に基づいて、入力信号に基づいて信号を出力できる単語列を見つけることです。