HyperAIHyperAI

Command Palette

Search for a command to run...

双デコーダーTransformerを用いた連合型自動音声認識および多言語音声翻訳

Hang Le Juan Pino Changhan Wang Jiatao Gu Didier Schwab Laurent Besacier

概要

我々は、自動音声認識(ASR)と多言語音声翻訳(ST)を同時に行う新しいモデルアーキテクチャである「デュアルデコーダーTransformer」を提案する。本モデルはVaswaniら(2017)が提唱した元のTransformerアーキテクチャに基づいているが、それぞれが一つのタスク(ASRまたはST)を担当する2つのデコーダーから構成されている。本研究の主な貢献は、これらのデコーダー間の相互作用の仕組みにある:一方のデコーダーが、双方向アテンション機構を用いて他方からの異なる情報源に注目できる点である。このアーキテクチャの構成を、デコーダー間の依存関係のレベルに応じて2つのバリアントに分類し、それぞれを「並列型デュアルデコーダーTransformer」と「クロス型デュアルデコーダーTransformer」と呼ぶ。MuST-Cデータセットを用いた広範な実験の結果、本モデルは多言語設定においてこれまで報告された最高の翻訳性能を上回り、かつ二言語間の1対1翻訳結果に対しても優れた性能を示した。さらに、従来のマルチタスクアーキテクチャと比較して、並列型モデルはASRとSTの性能のトレードオフを示さないことが明らかになった。本研究のコードおよび事前学習済みモデルは、https://github.com/formiel/speech-translation にて公開されている。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています