17日前
事前学習モデルとアダプタを用いたエンドツーエンド音声翻訳:IWSLT 2021におけるUPC
Gerard I. Gállego, Ioannis Tsiamas, Carlos Escolano, José A. R. Fonollosa, Marta R. Costa-jussà

要約
本稿では、UPC機械翻訳グループがIWSLT 2021オフライン音声翻訳タスクに提出したシステムについて述べる。このタスクは、TEDトークから抽出された英語音声データをドイツ語テキストに翻訳するシステムの構築を目的としている。提出されたシステムは、カスケード型またはエンドツーエンド型のいずれかであり、カスタム分割または指定された分割を用いることができる。本研究の提出システムは、エンドツーエンド型音声翻訳システムであり、事前学習済みモデル(Wav2Vec 2.0およびmBART)を用い、エンコーダとデコーダの間に結合モジュールを配置した構成となっている。さらに、全パラメータのうち20%のみを微調整する効率的なファインチューニング手法を採用している。本研究では、システムにアダプタ(Adapter)を追加し、事前学習を施すことで、収束速度の向上および最終的な性能向上が可能であることを示した。その結果、MuST-Cテストセットにおいて27.3のBLEUスコアを達成した。最終的なモデルはアンサンブル構成であり、同じテストセットで28.22のBLEUスコアを記録した。また、本研究では、事前学習済みのWav2Vec 2.0を活用して翻訳不能なテキスト区間を検出するカスタム分割アルゴリズムを用いており、これは指定された分割と比較してIWSLT 2019テストセットにおいて2.5~3のBLEUスコア向上をもたらした。