SeamlessM4T: Massiv mehrsprachige und multimodale Maschinübersetzung

Was bedarf es, um den Babel-Fisch zu schaffen, ein Werkzeug, das Individuen bei der Übersetzung von Sprache zwischen zwei beliebigen Sprachen helfen kann? Obwohl kürzliche Durchbrüche in textbasierten Modellen die maschinelle Übersetzung auf über 200 Sprachen erweitert haben, konnten vereinte sprachübersetzende Modelle bisher keine ähnlichen Fortschritte erzielen. Insbesondere basieren herkömmliche sprachübersetzende Systeme auf kaskadierten Systemen, die die Übersetzung schrittweise durchführen, was hochleistungsfähige vereinte Systeme unerreichbar macht. Um diese Lücken zu schließen, stellen wir SeamlessM4T vor, ein einzelnes Modell, das sprachliche Übersetzung (speech-to-speech), textbasierte Übersetzung (speech-to-text), synthetische Sprachübersetzung (text-to-speech), textuelle Übersetzung (text-to-text) und automatische Spracherkennung für bis zu 100 Sprachen unterstützt. Um dies zu erreichen, nutzten wir eine Million Stunden offener sprachlicher Audiodaten, um selbstüberwachte Sprachrepräsentationen mit w2v-BERT 2.0 zu lernen. Anschließend erstellten wir ein multimodales Korpus automatisch ausgerichteter sprachlicher Übersetzungen. Diese wurden gefiltert und mit menschlich beschrifteten und pseudobeschrifteten Daten kombiniert, um das erste mehrsprachige System zu entwickeln, das sowohl für gesprochene als auch für geschriebene Inhalte von und ins Englische übersetzen kann. Auf FLEURS setzt SeamlessM4T einen neuen Standard für Übersetzungen in mehrere Zielsprachen und erreicht eine Verbesserung des BLEU-Werts um 20 % im direkten sprachlichen Textübersetzen gegenüber dem bisherigen Stand der Technik (SOTA). Verglichen mit starken kaskadierten Modellen verbessert SeamlessM4T die Qualität der ins Englische übersetzenden Systeme um 1,3 BLEU-Punkte im sprachlichen Textübersetzen und um 2,6 ASR-BLEU-Punkte im sprachlichen Sprachübersetzen. In Bezug auf Robustheit zeigte unser System bessere Leistungen gegen Hintergrundgeräusche und Sprechervariationen in sprachlichen Textübersetzungs-Aufgaben im Vergleich zum aktuellen SOTA-Modell. Kritisch bewerteten wir SeamlessM4T hinsichtlich Geschlechterverzerrungen und fügten Toxizität hinzu, um die Sicherheit der Übersetzungen zu evaluieren. Schließlich sind alle Beiträge dieser Arbeit Open Source und unter https://github.com/facebookresearch/seamless_communication zugänglich.