vor 11 Tagen

mT5: Ein massiv mehrsprachig vortrainierter Text-zu-Text-Transformer

Linting Xue, Noah Constant, Adam Roberts, Mihir Kale, Rami Al-Rfou, Aditya Siddhant, Aditya Barua, Colin Raffel

Abstract

Der kürzlich vorgestellte „Text-to-Text Transfer Transformer“ (T5) erreichte durch die Nutzung eines einheitlichen Text-zu-Text-Formats und einer großen Skalierung state-of-the-art-Ergebnisse bei einer Vielzahl englischsprachiger NLP-Aufgaben. In diesem Paper stellen wir mT5 vor, eine mehrsprachige Variante von T5, die auf einem neuen, auf Common Crawl basierenden Datensatz mit 101 Sprachen vortrainiert wurde. Wir erläutern die Architektur und die modifizierte Trainingsstrategie von mT5 und zeigen dessen state-of-the-art-Leistung auf zahlreichen mehrsprachigen Benchmarks. Zudem beschreiben wir eine einfache Technik, um im Zero-Shot-Szenario „zufällige Übersetzungen“ zu verhindern, bei denen ein generativer Modell seine Vorhersage (teilweise) in die falsche Sprache übersetzt. Alle im Rahmen dieser Arbeit verwendeten Quellcodes und Modell-Checkpoint-Dateien sind öffentlich verfügbar.