
要約
近年の音声認識(Speech-to-Text)モデルは、多くのハードウェアリソースを必要とし、ほぼすべてが英語で訓練されている。本論文では、ドイツ語およびスペイン語、フランス語に対応した音声認識モデルを提示する。これらのモデルには以下の特徴がある。(a)モデルが小型であり、ラズベリーパイのようなマイコン上でリアルタイムで動作可能である。(b)事前学習済みの英語モデルを活用することで、一般消費者向けのハードウェアと比較的小規模なデータセットを用いて訓練が可能である。(c)他のモデルと同等の性能を発揮し、特にドイツ語においてはそれらを上回る性能を示す。本モデルは、前述の特徴のうち一部しか持たない既存のアプローチの利点を統合している。さらに本論文では、新たなデータセット処理ライブラリを提供しており、追加のデータセットへの容易な拡張を目的として設計されている。また、類似したアルファベットを持つ言語の事前学習モデルを活用した、新しい言語への転移学習を最適化する手法も提示している。