HyperAIHyperAI

Command Palette

Search for a command to run...

低遅延音声認識のためのアモルタイズドニューラルネットワーク

Jonathan Macoskey Grant P. Strimel Jinru Su Ariya Rastrow

概要

我々は、計算コストおよび遅延を意識したネットワークアーキテクチャとして、シーケンスモデリングタスクに特に適した「アモルタイズドニューラルネットワーク(AmNets)」を提案する。本研究では、AmNetsを再帰型ニューラルネットワークトランシデューサー(RNN-T)に適用し、自動音声認識(ASR)タスクにおける計算コストと遅延を低減する。AmNetsを用いたRNN-Tアーキテクチャは、フレーム単位でエンコーダの複数の分岐間を動的に切り替えることが可能である。各分岐は異なる計算コストとモデル容量を持つように構成されており、本研究では、スパースなプルーニングと行列因子分解という2つの代表的な手法を用いて、可変な計算負荷を実現している。フレーム単位での分岐切り替えは、計算オーバーヘッドが極めて小さい仲裁ネットワーク(arbitrator network)によって決定される。LibriSpeechデータセットを用いた実験結果から、提案アーキテクチャが推論コストを最大45%削減し、ほぼリアルタイムレベルの遅延を達成しつつ、精度の低下を引き起こさないことを示した。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
低遅延音声認識のためのアモルタイズドニューラルネットワーク | 記事 | HyperAI超神経