HyperAIHyperAI

Command Palette

Search for a command to run...

Seed-ASR:LLMを活用した音声認識による多様な音声および文脈の理解

概要

現代の自動音声認識(ASR)モデルは、さまざまなアプリケーションシーンにおける特定の文脈情報を考慮しつつ、多様な音声信号(異なるドメイン、言語、アクセントなど)を正確に変換する必要がある。従来のエンドツーエンド型モデルは、追加の言語モデルと統合することで良好な性能を発揮するが、主にデータが一致する状況において有効であり、その性能は徐々に限界に近づいている。本研究では、大規模言語モデル(LLM)を基盤とする音声認識モデル「Seed-ASR」を提案する。Seed-ASRは、音声条件付き大規模言語モデル(AcLLM)の枠組みに基づき、連続的な音声表現と文脈情報を組み合わせてLLMに入力することで、LLMの潜在能力を活用している。段階的な大規模な学習とLLMにおける文脈認識能力の促進を通じて、Seed-ASRは複数のドメイン、アクセント・方言、言語を含む包括的な評価セットにおいて、従来のエンドツーエンド型モデルを顕著に上回る性能を示した。さらに、追加の言語モデルを必要とせずに、さまざまなシナリオにおける特定の要件に対応できるように、柔軟に展開可能である。最近公開された大規模ASRモデルと比較して、Seed-ASRは中国語および英語の公開テストセットにおいて、単語(または中国語では文字)誤り率を10%~40%まで低減し、その優れた性能をさらに裏付けている。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
Seed-ASR:LLMを活用した音声認識による多様な音声および文脈の理解 | 記事 | HyperAI超神経