HyperAIHyperAI
vor 2 Monaten

SeamlessM4T: Massiv mehrsprachige und multimodale Maschinübersetzung

Seamless Communication; Loïc Barrault; Yu-An Chung; Mariano Cora Meglioli; David Dale; Ning Dong; Paul-Ambroise Duquenne; Hady Elsahar; Hongyu Gong; Kevin Heffernan; John Hoffman; Christopher Klaiber; Pengwei Li; Daniel Licht; Jean Maillard; Alice Rakotoarison; Kaushik Ram Sadagopan; Guillaume Wenzek; Ethan Ye; Bapi Akula; Peng-Jen Chen; Naji El Hachem; Brian Ellis; Gabriel Mejia Gonzalez; Justin Haaheim; Prangthip Hansanti; Russ Howes; Bernie Huang; Min-Jae Hwang; Hirofumi Inaguma; Somya Jain; Elahe Kalbassi; Amanda Kallet; Ilia Kulikov; Janice Lam; Daniel Li; Xutai Ma; Ruslan Mavlyutov; Benjamin Peloquin; Mohamed Ramadan; Abinesh Ramakrishnan; Anna Sun; Kevin Tran; Tuan Tran; Igor Tufanov; Vish Vogeti; Carleigh Wood; Yilin Yang; Bokai Yu; Pierre Andrews; Can Balioglu; Marta R. Costa-jussà; Onur Celebi; Maha Elbayad; Cynthia Gao; Francisco Guzmán; Justine Kao; Ann Lee; Alexandre Mourachko; Juan Pino; Sravya Popuri; Christophe Ropers; Safiyyah Saleem; Holger Schwenk; Paden Tomasello; Changhan Wang; Jeff Wang; Skyler Wang
SeamlessM4T: Massiv mehrsprachige und multimodale Maschinübersetzung
Abstract

Was bedarf es, um den Babel-Fisch zu schaffen, ein Werkzeug, das Individuen bei der Übersetzung von Sprache zwischen zwei beliebigen Sprachen helfen kann? Obwohl kürzliche Durchbrüche in textbasierten Modellen die maschinelle Übersetzung auf über 200 Sprachen erweitert haben, konnten vereinte sprachübersetzende Modelle bisher keine ähnlichen Fortschritte erzielen. Insbesondere basieren herkömmliche sprachübersetzende Systeme auf kaskadierten Systemen, die die Übersetzung schrittweise durchführen, was hochleistungsfähige vereinte Systeme unerreichbar macht. Um diese Lücken zu schließen, stellen wir SeamlessM4T vor, ein einzelnes Modell, das sprachliche Übersetzung (speech-to-speech), textbasierte Übersetzung (speech-to-text), synthetische Sprachübersetzung (text-to-speech), textuelle Übersetzung (text-to-text) und automatische Spracherkennung für bis zu 100 Sprachen unterstützt. Um dies zu erreichen, nutzten wir eine Million Stunden offener sprachlicher Audiodaten, um selbstüberwachte Sprachrepräsentationen mit w2v-BERT 2.0 zu lernen. Anschließend erstellten wir ein multimodales Korpus automatisch ausgerichteter sprachlicher Übersetzungen. Diese wurden gefiltert und mit menschlich beschrifteten und pseudobeschrifteten Daten kombiniert, um das erste mehrsprachige System zu entwickeln, das sowohl für gesprochene als auch für geschriebene Inhalte von und ins Englische übersetzen kann. Auf FLEURS setzt SeamlessM4T einen neuen Standard für Übersetzungen in mehrere Zielsprachen und erreicht eine Verbesserung des BLEU-Werts um 20 % im direkten sprachlichen Textübersetzen gegenüber dem bisherigen Stand der Technik (SOTA). Verglichen mit starken kaskadierten Modellen verbessert SeamlessM4T die Qualität der ins Englische übersetzenden Systeme um 1,3 BLEU-Punkte im sprachlichen Textübersetzen und um 2,6 ASR-BLEU-Punkte im sprachlichen Sprachübersetzen. In Bezug auf Robustheit zeigte unser System bessere Leistungen gegen Hintergrundgeräusche und Sprechervariationen in sprachlichen Textübersetzungs-Aufgaben im Vergleich zum aktuellen SOTA-Modell. Kritisch bewerteten wir SeamlessM4T hinsichtlich Geschlechterverzerrungen und fügten Toxizität hinzu, um die Sicherheit der Übersetzungen zu evaluieren. Schließlich sind alle Beiträge dieser Arbeit Open Source und unter https://github.com/facebookresearch/seamless_communication zugänglich.