18日前
Whispering LLaMA:音声認識向けクロスモーダル生成型エラーコレクションフレームワーク
Srijith Radhakrishnan, Chao-Han Huck Yang, Sumeer Ahmad Khan, Rohit Kumar, Narsis A. Kiani, David Gomez-Cabrero, Jesper N. Tegner

要約
自動音声認識(ASR)における生成型誤り補正のための新たなクロスモーダル融合技術を提案する。本手法は、音声情報と外部の言語表現を活用し、正確な音声認識文脈を生成することを目的としている。これは、n-best仮説の枠組みにおける生成型誤り補正の新たなパラダイムへの一歩である。従来のランク付けに基づく再スコアリング手法とは異なり、本アプローチは異なる初期化手法とパラメータ効率の高いアルゴリズムを適切に活用することで、事前学習済み音声モデルおよびテキストモデルから得られるASR性能を向上させている。多様なASRデータセットを用いた評価により、本手法の安定性および再現性を検証し、n-best仮説と比較して相対的単語誤り率改善(WERR)が37.66%向上することを実証した。今後の研究を促進するため、本研究のコードおよび事前学習モデルをGitHubにてオープンソースとして公開している(https://github.com/Srijith-rkr/Whispering-LLaMA)。