
要約
高品質な自動音声認識(Automatic Speech Recognition: ASR)は、音声ベースのアプリケーションや研究において必須の条件です。最先端のASRソフトウェアは無料で利用可能ですが、英語以外の言語に対する言語依存的な音響モデルが不足しています。これは、無料で利用できる学習データの量が限られているためです。本研究では、クリエイティブ・コモンズライセンスのもとで配布されている2つのデータセットを使用して、ドイツ語用の音響モデルをKaldiで訓練しました。これにより、生成されたモデルは自由に再配布でき、ドイツ語ASRへの参入コストが低下します。総計412時間のドイツ語読み上げ音声データを用いてモデルを訓練し、Spoken Wikipedia Corpusからのデータを既存の最良の無料ドイツ語音響モデルレシピおよびデータセットに追加することで、相対的な単語誤り率を26%削減しました。最良のモデルはTuda-Deテストセット上で14.38%の単語誤り率を達成しています。学習データには多くの話者と多様なトピックが含まれているため、当該モデルは話者の変動やトピックの切り替えに対して堅牢性を持っています。