HyperAIHyperAI

Command Palette

Search for a command to run...

BAT:メモリ効率性および低レイテンシを実現する境界認識トランスデューサによるASR

Keyu An Xian Shi Shiliang Zhang

概要

最近、再帰型ニューラルネットワークトランシデューサー(RNN-T)は、自然なストリーミング処理能力と優れた性能から、注目度が高まっている。しかし、RNN-Tの学習には大量の時間および計算リソースを要するという課題があり、これはRNN-T損失関数の計算が遅く、メモリ消費量が非常に大きいためである。また、RNN-Tのもう一つの制約として、より高い性能を得るためにより広い文脈に依存する傾向があり、その結果、ストリーミング音声認識(ASR)における発信遅延が増大するという問題がある。本論文では、メモリ効率と低遅延を両立したストリーミングASRを実現するため、境界意識型トランシデューサー(Boundary-aware Transducer: BAT)を提案する。BATでは、RNN-T損失計算に用いるラティスを、連続積分・放電(Continuous Integrate-and-Fire: CIF)から得られるアライメントによって選定された制限された領域に縮小する。このCIFアライメントは、RNN-Tモデルと共同最適化される。広範な実験により、RNN-Tと比較してBATは学習時の時間およびメモリ消費を大幅に削減し、推論時におけるCER(字誤り率)と遅延のトレードオフにおいて優れた性能を達成することが確認された。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています