9日前
XLS-R:スケールにおける自己教師付き多言語音声表現学習
Arun Babu, Changhan Wang, Andros Tjandra, Kushal Lakhotia, Qiantong Xu, Naman Goyal, Kritika Singh, Patrick von Platen, Yatharth Saraf, Juan Pino, Alexei Baevski, Alexis Conneau, Michael Auli

要約
本稿では、wav2vec 2.0を基盤とした多言語音声表現学習向けの大規模モデル「XLS-R」を紹介する。我々は、128言語にわたり約50万時間に及ぶ公開音声データを用いて、最大20億パラメータを持つモデルを学習した。これは、これまでに報告された最大規模の先行研究と比較して、約10倍の公開データ量を活用したものである。評価は、高リソース言語から低リソース言語まで、多様なタスク、ドメイン、データ設定、言語をカバーしており、広範な検証を実施した。CoVoST-2音声翻訳ベンチマークにおいて、英語への21方向の翻訳において、平均して7.4 BLEUの向上を達成し、従来の最良成績を上回った。音声認識の分野では、BABEL、MLS、CommonVoice、VoxPopuliの各データセットにおいて、既存の最良手法を上回り、平均で14~34%の相対的な誤り率低下を実現した。また、XLS-RはVoxLingua107言語識別タスクにおいても新たな最良成績を樹立した。さらに、十分なモデルサイズを持つ場合、英語のみを対象とした事前学習よりも、英語音声を他の言語に翻訳する設定において、多言語事前学習が優れることが示された。この設定は従来、単言語事前学習に有利とされてきた。本研究が、世界中の多くの言語における音声処理技術の向上に貢献することを期待する。