HyperAIHyperAI

Command Palette

Search for a command to run...

ポリシー学習を用いたエンドツーエンド音声認識の改善

Yingbo Zhou; Caiming Xiong; Richard Socher

概要

接続主義的な時系列分類(Connectionist Temporal Classification: CTC)は、エンドツーエンドの音声認識モデルにおける最大尤度学習に広く使用されています。しかし、通常、負の最大尤度と音声認識で使用される性能指標(例えば、単語誤り率(Word Error Rate: WER))の間に乖離があります。これにより、学習中に目的関数と指標との間に不一致が生じます。本研究では、上記の問題を最大尤度と方策勾配を組み合わせて学習することで軽減できることを示します。特に、方策学習によって直接的に(それ以外の場合微分不可能な)性能指標を最適化することが可能となります。実験結果から、結合学習は最大尤度による学習と比較して、当社のエンドツーエンドモデルの相対的な性能を4%から13%向上させることを確認しました。このモデルはウォールストリートジャーナルデータセットで5.53%のWERを達成し、Librispeech test-cleanセットとtest-otherセットではそれぞれ5.42%と14.70%のWERを達成しました。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています