Command Palette
Search for a command to run...
Seed-ASR:LLMを活用した音声認識による多様な音声および文脈の理解
Seed-ASR:LLMを活用した音声認識による多様な音声および文脈の理解
概要
現代の自動音声認識(ASR)モデルは、さまざまなアプリケーションシーンにおける特定の文脈情報を考慮しつつ、多様な音声信号(異なるドメイン、言語、アクセントなど)を正確に変換する必要がある。従来のエンドツーエンド型モデルは、追加の言語モデルと統合することで良好な性能を発揮するが、主にデータが一致する状況において有効であり、その性能は徐々に限界に近づいている。本研究では、大規模言語モデル(LLM)を基盤とする音声認識モデル「Seed-ASR」を提案する。Seed-ASRは、音声条件付き大規模言語モデル(AcLLM)の枠組みに基づき、連続的な音声表現と文脈情報を組み合わせてLLMに入力することで、LLMの潜在能力を活用している。段階的な大規模な学習とLLMにおける文脈認識能力の促進を通じて、Seed-ASRは複数のドメイン、アクセント・方言、言語を含む包括的な評価セットにおいて、従来のエンドツーエンド型モデルを顕著に上回る性能を示した。さらに、追加の言語モデルを必要とせずに、さまざまなシナリオにおける特定の要件に対応できるように、柔軟に展開可能である。最近公開された大規模ASRモデルと比較して、Seed-ASRは中国語および英語の公開テストセットにおいて、単語(または中国語では文字)誤り率を10%~40%まで低減し、その優れた性能をさらに裏付けている。