HyperAIHyperAI

Command Palette

Search for a command to run...

大規模言語モデルとタスク活性化プロンプトを用いた生成型音声認識誤り訂正

Chao-Han Huck Yang Yile Gu Yi-Chieh Liu Shalini Ghosh Ivan Bulyko Andreas Stolcke

概要

大規模言語モデル(LLM)が音声認識の後処理プロセスとして機能し、再スコアリングおよび誤り修正を実行する能力について検討する。まず、ファインチューニングを伴わずにLLMにこれらのタスクを実行させるための指示プロンプティング(instruction prompting)に注目し、ゼロショットおよびフェイショットのコンテキスト学習を含むさまざまなプロンプティング手法を評価する。さらに、因果的指示と例示を組み合わせることでコンテキスト窓を拡張する、新規のタスク活性化プロンプティング手法を提案する。次に、ファインチューニングを行わない状態で、コンテキスト内学習(in-context learning)による再スコアリングのみでも、ドメイン特化された言語モデルによる再スコアリングと同等の性能を達成できることを示す。これは、事前学習済みの初回認識システムを用い、ドメイン外のタスク(ATISおよびWSJ)において再スコアリング出力を評価した結果である。さらに、プロンプティング手法とファインチューニングを組み合わせることで、N-bestオラクルレベルを下回る誤り率を達成し、LLMの優れた汎化能力を実証した。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
大規模言語モデルとタスク活性化プロンプトを用いた生成型音声認識誤り訂正 | 記事 | HyperAI超神経