Command Palette
Search for a command to run...
mT5: Ein massiv mehrsprachig vortrainierter Text-zu-Text-Transformer
mT5: Ein massiv mehrsprachig vortrainierter Text-zu-Text-Transformer
Linting Xue Noah Constant Adam Roberts Mihir Kale Rami Al-Rfou Aditya Siddhant Aditya Barua Colin Raffel
Zusammenfassung
Der kürzlich vorgestellte „Text-to-Text Transfer Transformer“ (T5) erreichte durch die Nutzung eines einheitlichen Text-zu-Text-Formats und einer großen Skalierung state-of-the-art-Ergebnisse bei einer Vielzahl englischsprachiger NLP-Aufgaben. In diesem Paper stellen wir mT5 vor, eine mehrsprachige Variante von T5, die auf einem neuen, auf Common Crawl basierenden Datensatz mit 101 Sprachen vortrainiert wurde. Wir erläutern die Architektur und die modifizierte Trainingsstrategie von mT5 und zeigen dessen state-of-the-art-Leistung auf zahlreichen mehrsprachigen Benchmarks. Zudem beschreiben wir eine einfache Technik, um im Zero-Shot-Szenario „zufällige Übersetzungen“ zu verhindern, bei denen ein generativer Modell seine Vorhersage (teilweise) in die falsche Sprache übersetzt. Alle im Rahmen dieser Arbeit verwendeten Quellcodes und Modell-Checkpoint-Dateien sind öffentlich verfügbar.