2ヶ月前

SeamlessM4T: 大規模多言語・多モーダル機械翻訳

Seamless Communication; Loïc Barrault; Yu-An Chung; Mariano Cora Meglioli; David Dale; Ning Dong; Paul-Ambroise Duquenne; Hady Elsahar; Hongyu Gong; Kevin Heffernan; John Hoffman; Christopher Klaiber; Pengwei Li; Daniel Licht; Jean Maillard; Alice Rakotoarison; Kaushik Ram Sadagopan; Guillaume Wenzek; Ethan Ye; Bapi Akula; Peng-Jen Chen; Naji El Hachem; Brian Ellis; Gabriel Mejia Gonzalez; Justin Haaheim; Prangthip Hansanti; Russ Howes; Bernie Huang; Min-Jae Hwang; Hirofumi Inaguma; Somya Jain; Elahe Kalbassi; Amanda Kallet; Ilia Kulikov; Janice Lam; Daniel Li; Xutai Ma; Ruslan Mavlyutov; Benjamin Peloquin; Mohamed Ramadan; Abinesh Ramakrishnan; Anna Sun; Kevin Tran; Tuan Tran; Igor Tufanov; Vish Vogeti; Carleigh Wood; Yilin Yang; Bokai Yu; Pierre Andrews; Can Balioglu; Marta R. Costa-jussà; Onur Celebi; Maha Elbayad; Cynthia Gao; Francisco Guzmán; Justine Kao; Ann Lee; Alexandre Mourachko; Juan Pino; Sravya Popuri; Christophe Ropers; Safiyyah Saleem; Holger Schwenk; Paden Tomasello; Changhan Wang; Jeff Wang; Skyler Wang
SeamlessM4T: 大規模多言語・多モーダル機械翻訳
要約

バベルフィッシュというツールを作成するには何が必要でしょうか?このツールは、任意の2つの言語間での音声翻訳を個人に提供します。最近のテキストベースモデルの進歩により、機械翻訳の対応言語数が200を超えるようになりましたが、統合された音声対音声翻訳モデルはまだ同様の進展を遂げていません。特に、従来の音声対音声翻訳システムは段階的な処理を行うカスケードシステムに依存しており、高性能な統合システムの実現が困難となっています。これらの課題に対処するために、私たちはSeamlessM4Tを導入します。これは最大100言語までをサポートし、音声対音声翻訳、音声対テキスト翻訳、テキスト対音声翻訳、テキスト対テキスト翻訳、および自動音声認識を一元化した単一モデルです。このモデル構築のために、100万時間分のオープンソース音声データを使用してw2v-BERT 2.0による自己監督型音声表現を学習しました。その後、自動的にアライメントされた音声翻訳からなるマルチモーダルコーパスを作成しました。人間によるラベリングデータと疑似ラベリングデータをフィルタリングし結合することで、英語への両方向(音声とテキスト)での翻訳が可能な最初の多言語システムを開発しました。FLEURSにおいて、SeamlessM4Tは複数の目標言語への翻訳で新しい基準を設定し、直接的な音声対テキスト翻訳において前回の最先端技術(SOTA)よりも20% BLEUスコア向上を達成しています。強力なカスケードモデルと比較すると、SeamlessM4Tは音声対テキストで英語への翻訳品質を1.3 BLEUポイント向上させ、また音声対音声では2.6 ASR-BLEUポイント向上させています。堅牢性テストでは、現在の最先端モデルよりも背景ノイズや話者変動に対する耐性が高く評価されました。重要な点として、私たちはSeamlessM4Tについてジェンダーバイアスと毒性追加(toxicity)を評価し、翻訳安全性を確認しました。最後に、本研究におけるすべての貢献はオープンソース化され、「https://github.com/facebookresearch/seamless_communication」からアクセス可能です。