
要約
接続主義的な時系列分類(Connectionist Temporal Classification: CTC)は、エンドツーエンドの音声認識モデルにおける最大尤度学習に広く使用されています。しかし、通常、負の最大尤度と音声認識で使用される性能指標(例えば、単語誤り率(Word Error Rate: WER))の間に乖離があります。これにより、学習中に目的関数と指標との間に不一致が生じます。本研究では、上記の問題を最大尤度と方策勾配を組み合わせて学習することで軽減できることを示します。特に、方策学習によって直接的に(それ以外の場合微分不可能な)性能指標を最適化することが可能となります。実験結果から、結合学習は最大尤度による学習と比較して、当社のエンドツーエンドモデルの相対的な性能を4%から13%向上させることを確認しました。このモデルはウォールストリートジャーナルデータセットで5.53%のWERを達成し、Librispeech test-cleanセットとtest-otherセットではそれぞれ5.42%と14.70%のWERを達成しました。