13日前

トークンと持続時間の同時予測による効率的なシーケンス変換

Hainan Xu, Fei Jia, Somshubra Majumdar, He Huang, Shinji Watanabe, Boris Ginsburg

要約

本論文では、シーケンス・トゥ・シーケンスタスク向けに新しい「トークンおよび持続時間変換器（Token-and-Duration Transducer: TDT）」アーキテクチャを提案する。TDTは従来のRNN-Transducerアーキテクチャを拡張し、出力トークンとその持続時間（発声されたトークンがカバーする入力フレーム数）を同時に予測する点が特徴である。この実現には、トークンと持続時間のそれぞれに独立して正規化された出力を有する結合ネットワークを用いる。推論時には、予測された持続時間に基づいて入力フレームをスキップできるため、従来のTransducerがエンコーダ出力を1フレームずつ処理するのに対し、TDTモデルは著しく高速化される。さまざまなシーケンス変換タスクにおいて、TDTモデルは従来のTransducerと比較して高い精度と大幅な高速推論を達成している。音声認識タスクでは、TDTモデルは従来のTransducerよりも高い精度を達成し、推論速度が最大2.82倍速くなる。音声翻訳タスクでは、MUST-Cテストにおいて従来のTransducerと比較して1 BLEU以上の絶対的向上を達成し、推論速度は2.27倍速化される。音声意図分類およびスロット埋め込みタスクでは、従来のTransducerと比較して意図分類精度が最大1%以上（絶対値）向上し、処理速度は最大1.28倍速化される。本研究で開発したTDTモデルの実装は、NeMo（https://github.com/NVIDIA/NeMo）ツールキットを通じてオープンソース化される予定である。