3ヶ月前
低遅延音声認識のためのアモルタイズドニューラルネットワーク
Jonathan Macoskey, Grant P. Strimel, Jinru Su, Ariya Rastrow

要約
我々は、計算コストおよび遅延を意識したネットワークアーキテクチャとして、シーケンスモデリングタスクに特に適した「アモルタイズドニューラルネットワーク(AmNets)」を提案する。本研究では、AmNetsを再帰型ニューラルネットワークトランシデューサー(RNN-T)に適用し、自動音声認識(ASR)タスクにおける計算コストと遅延を低減する。AmNetsを用いたRNN-Tアーキテクチャは、フレーム単位でエンコーダの複数の分岐間を動的に切り替えることが可能である。各分岐は異なる計算コストとモデル容量を持つように構成されており、本研究では、スパースなプルーニングと行列因子分解という2つの代表的な手法を用いて、可変な計算負荷を実現している。フレーム単位での分岐切り替えは、計算オーバーヘッドが極めて小さい仲裁ネットワーク(arbitrator network)によって決定される。LibriSpeechデータセットを用いた実験結果から、提案アーキテクチャが推論コストを最大45%削減し、ほぼリアルタイムレベルの遅延を達成しつつ、精度の低下を引き起こさないことを示した。