17日前

大規模言語モデルとタスク活性化プロンプトを用いた生成型音声認識誤り訂正

Chao-Han Huck Yang, Yile Gu, Yi-Chieh Liu, Shalini Ghosh, Ivan Bulyko, Andreas Stolcke
大規模言語モデルとタスク活性化プロンプトを用いた生成型音声認識誤り訂正
要約

大規模言語モデル(LLM)が音声認識の後処理プロセスとして機能し、再スコアリングおよび誤り修正を実行する能力について検討する。まず、ファインチューニングを伴わずにLLMにこれらのタスクを実行させるための指示プロンプティング(instruction prompting)に注目し、ゼロショットおよびフェイショットのコンテキスト学習を含むさまざまなプロンプティング手法を評価する。さらに、因果的指示と例示を組み合わせることでコンテキスト窓を拡張する、新規のタスク活性化プロンプティング手法を提案する。次に、ファインチューニングを行わない状態で、コンテキスト内学習(in-context learning)による再スコアリングのみでも、ドメイン特化された言語モデルによる再スコアリングと同等の性能を達成できることを示す。これは、事前学習済みの初回認識システムを用い、ドメイン外のタスク(ATISおよびWSJ)において再スコアリング出力を評価した結果である。さらに、プロンプティング手法とファインチューニングを組み合わせることで、N-bestオラクルレベルを下回る誤り率を達成し、LLMの優れた汎化能力を実証した。