17日前

双デコーダーTransformerを用いた連合型自動音声認識および多言語音声翻訳

Hang Le, Juan Pino, Changhan Wang, Jiatao Gu, Didier Schwab, Laurent Besacier
双デコーダーTransformerを用いた連合型自動音声認識および多言語音声翻訳
要約

我々は、自動音声認識(ASR)と多言語音声翻訳(ST)を同時に行う新しいモデルアーキテクチャである「デュアルデコーダーTransformer」を提案する。本モデルはVaswaniら(2017)が提唱した元のTransformerアーキテクチャに基づいているが、それぞれが一つのタスク(ASRまたはST)を担当する2つのデコーダーから構成されている。本研究の主な貢献は、これらのデコーダー間の相互作用の仕組みにある:一方のデコーダーが、双方向アテンション機構を用いて他方からの異なる情報源に注目できる点である。このアーキテクチャの構成を、デコーダー間の依存関係のレベルに応じて2つのバリアントに分類し、それぞれを「並列型デュアルデコーダーTransformer」と「クロス型デュアルデコーダーTransformer」と呼ぶ。MuST-Cデータセットを用いた広範な実験の結果、本モデルは多言語設定においてこれまで報告された最高の翻訳性能を上回り、かつ二言語間の1対1翻訳結果に対しても優れた性能を示した。さらに、従来のマルチタスクアーキテクチャと比較して、並列型モデルはASRとSTの性能のトレードオフを示さないことが明らかになった。本研究のコードおよび事前学習済みモデルは、https://github.com/formiel/speech-translation にて公開されている。

双デコーダーTransformerを用いた連合型自動音声認識および多言語音声翻訳 | 最新論文 | HyperAI超神経