HyperAIHyperAI

Command Palette

Search for a command to run...

Whispering LLaMA:音声認識向けクロスモーダル生成型エラーコレクションフレームワーク

Srijith Radhakrishnan Chao-Han Huck Yang Sumeer Ahmad Khan Rohit Kumar Narsis A. Kiani David Gomez-Cabrero Jesper N. Tegner

概要

自動音声認識(ASR)における生成型誤り補正のための新たなクロスモーダル融合技術を提案する。本手法は、音声情報と外部の言語表現を活用し、正確な音声認識文脈を生成することを目的としている。これは、n-best仮説の枠組みにおける生成型誤り補正の新たなパラダイムへの一歩である。従来のランク付けに基づく再スコアリング手法とは異なり、本アプローチは異なる初期化手法とパラメータ効率の高いアルゴリズムを適切に活用することで、事前学習済み音声モデルおよびテキストモデルから得られるASR性能を向上させている。多様なASRデータセットを用いた評価により、本手法の安定性および再現性を検証し、n-best仮説と比較して相対的単語誤り率改善(WERR)が37.66%向上することを実証した。今後の研究を促進するため、本研究のコードおよび事前学習モデルをGitHubにてオープンソースとして公開している(https://github.com/Srijith-rkr/Whispering-LLaMA)


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています