17日前

3M:音声認識におけるマルチロス、マルチパス、マルチレベルニューラルネットワーク

Zhao You, Shulin Feng, Dan Su, Dong Yu
3M:音声認識におけるマルチロス、マルチパス、マルチレベルニューラルネットワーク
要約

最近、ConformerをベースとしたCTC/AEDモデルが、音声認識(ASR)分野における主流アーキテクチャとして広く採用されるようになっている。本論文では、これまでの先行研究を基に、ASRタスクにおけるさらなる性能向上を実現するため、複数のアプローチを同定・統合した。これらを「マルチロス(multi-loss)」「マルチパス(multi-path)」「マルチレベル(multi-level)」と呼び、総称して「3Mモデル」と定義する。具体的には、マルチロスとはCTCとAEDの同時最適化を実現する聯合損失関数を指し、マルチパスはモデル容量を著しく増大させることなく計算コストを抑えられるMixture-of-Experts(MoE)アーキテクチャを意味する。また、マルチレベルとは、深層モデルの複数の層に補助損失(auxiliary loss)を導入することで、学習の安定性と精度を向上させる手法を指す。本研究では、公開されているWenetSpeechデータセットを用いて提案手法の評価を行い、実験結果から、Wenetツールキットで訓練されたベースラインモデルに対して、相対的なCER(文字誤り率)で12.2%~17.6%の改善が得られた。さらに、15万時間分の大型コーパスを用いた大規模データセットでも、3MモデルはベースラインのConformerモデルに対して顕著な優位性を示した。本研究の実装コードは、https://github.com/tencent-ailab/3m-asr にて公開されている。