2ヶ月前

遅すぎることはない:大規模言語モデルに音響情報を融合して自動音声認識を行う

Chen Chen; Ruizhe Li; Yuchen Hu; Sabato Marco Siniscalchi; Pin-Yu Chen; Ensiong Chng; Chao-Han Huck Yang
遅すぎることはない:大規模言語モデルに音響情報を融合して自動音声認識を行う
要約

最近の研究では、大規模言語モデル(LLM)が自動音声認識(ASR)の出力に基づいて生成的誤り訂正(GER)に成功裏に利用できることが示されています。具体的には、ASRシステムによって生成されたN-best仮説リストから予測出力転写へ直接マッピングを行うためにLLMが使用されます。しかし、その効果性にもかかわらず、GERはLLMの学習時に音響信号に含まれる音響情報を考慮しないことにより、追加のデータ不確実性を導入します。本研究では、この制約を克服するために、予測出力転写を生成する前に音響情報を注入する新しい後期融合ソリューションである不確実性対応動的融合(Uncertainty-Aware Dynamic Fusion: UADF)を提案します。UADFは、自己回帰的なデコーディングプロセスに組み込まれた多モーダル融合手法であり、2つの段階で動作します。(i) まず、トークンレベルでのLLMの決定を分析し、調整します。(ii) 次に、音響モーダリティからの情報を動的に取り込みます。様々なASRタスクから収集した実験結果は、UADFが既存の融合メカニズムを超えるいくつかの点があることを示しています。UADFは単一モーダルによる融合時の貧弱な汎化性能を改善しながら、言葉誤り率(WER)において有意な向上をもたらし、LLMにおけるデータ不確実性問題を緩和します。また、UADFがオーディオ・ビジュアル音声認識に対してシームレスに適応することも示しています。