
要約
最近、再帰型ニューラルネットワークトランシデューサー(RNN-T)は、自然なストリーミング処理能力と優れた性能から、注目度が高まっている。しかし、RNN-Tの学習には大量の時間および計算リソースを要するという課題があり、これはRNN-T損失関数の計算が遅く、メモリ消費量が非常に大きいためである。また、RNN-Tのもう一つの制約として、より高い性能を得るためにより広い文脈に依存する傾向があり、その結果、ストリーミング音声認識(ASR)における発信遅延が増大するという問題がある。本論文では、メモリ効率と低遅延を両立したストリーミングASRを実現するため、境界意識型トランシデューサー(Boundary-aware Transducer: BAT)を提案する。BATでは、RNN-T損失計算に用いるラティスを、連続積分・放電(Continuous Integrate-and-Fire: CIF)から得られるアライメントによって選定された制限された領域に縮小する。このCIFアライメントは、RNN-Tモデルと共同最適化される。広範な実験により、RNN-Tと比較してBATは学習時の時間およびメモリ消費を大幅に削減し、推論時におけるCER(字誤り率)と遅延のトレードオフにおいて優れた性能を達成することが確認された。