HyperAIHyperAI

Command Palette

Search for a command to run...

mT5: Ein massiv mehrsprachig vortrainierter Text-zu-Text-Transformer

Linting Xue Noah Constant Adam Roberts Mihir Kale Rami Al-Rfou Aditya Siddhant Aditya Barua Colin Raffel

Zusammenfassung

Der kürzlich vorgestellte „Text-to-Text Transfer Transformer“ (T5) erreichte durch die Nutzung eines einheitlichen Text-zu-Text-Formats und einer großen Skalierung state-of-the-art-Ergebnisse bei einer Vielzahl englischsprachiger NLP-Aufgaben. In diesem Paper stellen wir mT5 vor, eine mehrsprachige Variante von T5, die auf einem neuen, auf Common Crawl basierenden Datensatz mit 101 Sprachen vortrainiert wurde. Wir erläutern die Architektur und die modifizierte Trainingsstrategie von mT5 und zeigen dessen state-of-the-art-Leistung auf zahlreichen mehrsprachigen Benchmarks. Zudem beschreiben wir eine einfache Technik, um im Zero-Shot-Szenario „zufällige Übersetzungen“ zu verhindern, bei denen ein generativer Modell seine Vorhersage (teilweise) in die falsche Sprache übersetzt. Alle im Rahmen dieser Arbeit verwendeten Quellcodes und Modell-Checkpoint-Dateien sind öffentlich verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp