HyperAIHyperAI

Command Palette

Search for a command to run...

トークンと持続時間の同時予測による効率的なシーケンス変換

Hainan Xu Fei Jia Somshubra Majumdar He Huang Shinji Watanabe Boris Ginsburg

概要

本論文では、シーケンス・トゥ・シーケンスタスク向けに新しい「トークンおよび持続時間変換器(Token-and-Duration Transducer: TDT)」アーキテクチャを提案する。TDTは従来のRNN-Transducerアーキテクチャを拡張し、出力トークンとその持続時間(発声されたトークンがカバーする入力フレーム数)を同時に予測する点が特徴である。この実現には、トークンと持続時間のそれぞれに独立して正規化された出力を有する結合ネットワークを用いる。推論時には、予測された持続時間に基づいて入力フレームをスキップできるため、従来のTransducerがエンコーダ出力を1フレームずつ処理するのに対し、TDTモデルは著しく高速化される。さまざまなシーケンス変換タスクにおいて、TDTモデルは従来のTransducerと比較して高い精度と大幅な高速推論を達成している。音声認識タスクでは、TDTモデルは従来のTransducerよりも高い精度を達成し、推論速度が最大2.82倍速くなる。音声翻訳タスクでは、MUST-Cテストにおいて従来のTransducerと比較して1 BLEU以上の絶対的向上を達成し、推論速度は2.27倍速化される。音声意図分類およびスロット埋め込みタスクでは、従来のTransducerと比較して意図分類精度が最大1%以上(絶対値)向上し、処理速度は最大1.28倍速化される。本研究で開発したTDTモデルの実装は、NeMo(https://github.com/NVIDIA/NeMo)ツールキットを通じてオープンソース化される予定である


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています