17日前

HyPoradise: 大規模言語モデルを用いた生成型音声認識のためのオープンベースライン

Chen Chen, Yuchen Hu, Chao-Han Huck Yang, Sabato Macro Siniscalchi, Pin-Yu Chen, Eng Siong Chng
HyPoradise: 大規模言語モデルを用いた生成型音声認識のためのオープンベースライン
要約

ディープニューラルネットワークの進展により、自動音声認識(ASR)システムは、複数の公開されているクリーンな音声データセットにおいて人間の性能に達するまでに至りました。しかし、最先端のASRシステムであっても、悪条件下では性能が低下する傾向にあり、優れた音響モデルは背景ノイズなどの音声ドメインの変化に対して敏感であるためです。直感的に人間は、言語知識に依拠することでこの課題に対処します。つまり、曖昧な発話語彙の意味は文脈的ヒントから推定されるため、聴覚システムへの依存が低減されます。この観察に着想を得て、本研究では、外部の大規模言語モデル(LLM)を用いたASR誤り補正のための初のオープンソースベンチマークを提案します。ここでは、N-bestデコード候補が真の転写を予測するための情報豊富な要素として活用されます。これは、従来の言語モデル再スコアリング戦略(出力として1つの候補を選択するのみ)とは根本的に異なるパラダイムの変化です。提案するベンチマークには、広く用いられる音声ドメインにわたる33万4千組以上のN-best候補と対応する正確な転写を含む、新規のデータセット「HyPoradise(HP)」が含まれます。このデータセットを基に、ラベル付きの候補-転写ペアの量が異なる3種類のLLMに基づく誤り補正手法を検証し、単語誤り率(WER)の大幅な低減を達成しました。実験結果は、本手法が従来の再ランク付けベースの方法の上限を突破する画期的な成果を上げていることを示しています。さらに驚くべきことに、適切なプロンプトと生成能力を持つLLMは、N-bestリストに存在しないトークンさえも補正可能であることが明らかになりました。本研究では、事前学習済みモデルを公開し、再現可能なパイプラインを提供することで、LLMを用いたASR誤り補正のための新しい評価フレームワークを提示しています。

HyPoradise: 大規模言語モデルを用いた生成型音声認識のためのオープンベースライン | 最新論文 | HyperAI超神経