HyperAI超神経

概要

自動音声認識（ASR）における生成型誤り補正のための新たなクロスモーダル融合技術を提案する。本手法は、音声情報と外部の言語表現を活用し、正確な音声認識文脈を生成することを目的としている。これは、n-best仮説の枠組みにおける生成型誤り補正の新たなパラダイムへの一歩である。従来のランク付けに基づく再スコアリング手法とは異なり、本アプローチは異なる初期化手法とパラメータ効率の高いアルゴリズムを適切に活用することで、事前学習済み音声モデルおよびテキストモデルから得られるASR性能を向上させている。多様なASRデータセットを用いた評価により、本手法の安定性および再現性を検証し、n-best仮説と比較して相対的単語誤り率改善（WERR）が37.66％向上することを実証した。今後の研究を促進するため、本研究のコードおよび事前学習モデルをGitHubにてオープンソースとして公開している（https://github.com/Srijith-rkr/Whispering-LLaMA）。

概要

Srijith Radhakrishnan Chao-Han Huck Yang Sumeer Ahmad Khan Rohit Kumar Narsis A. Kiani David Gomez-Cabrero Jesper N. Tegner

概要

AIでAIを構築

HyperAI Newsletters

Srijith Radhakrishnan Chao-Han Huck Yang Sumeer Ahmad Khan Rohit Kumar Narsis A. Kiani David Gomez-Cabrero Jesper N. Tegner

概要

AIでAIを構築

HyperAI Newsletters

Srijith Radhakrishnan Chao-Han Huck Yang Sumeer Ahmad Khan Rohit Kumar Narsis A. Kiani David Gomez-Cabrero Jesper N. Tegner

概要

AIでAIを構築

HyperAI Newsletters

Command Palette

Whispering LLaMA：音声認識向けクロスモーダル生成型エラーコレクションフレームワーク

Srijith Radhakrishnan Chao-Han Huck Yang Sumeer Ahmad Khan Rohit Kumar Narsis A. Kiani David Gomez-Cabrero Jesper N. Tegner

概要

AIでAIを構築

HyperAI Newsletters

Command Palette

Whispering LLaMA：音声認識向けクロスモーダル生成型エラーコレクションフレームワーク

Srijith Radhakrishnan Chao-Han Huck Yang Sumeer Ahmad Khan Rohit Kumar Narsis A. Kiani David Gomez-Cabrero Jesper N. Tegner

概要

AIでAIを構築

HyperAI Newsletters

Command Palette

Whispering LLaMA：音声認識向けクロスモーダル生成型エラーコレクションフレームワーク

Srijith Radhakrishnan Chao-Han Huck Yang Sumeer Ahmad Khan Rohit Kumar Narsis A. Kiani David Gomez-Cabrero Jesper N. Tegner

概要

AIでAIを構築

HyperAI Newsletters