AlexaTM 20B: Few-Shot-Lernen unter Verwendung eines großskaligen mehrsprachigen Seq2Seq-Modells

In dieser Arbeit zeigen wir, dass mehrsprachige, großskalige Sequenz-zu-Sequenz-(seq2seq)-Modelle, die auf einer Kombination aus Denoising- und kausalen Sprachmodellierungsaufgaben (CLM) vortrainiert wurden, auf verschiedenen Aufgaben effizientere Few-Shot-Lerner sind als decoder-only-Modelle. Insbesondere trainieren wir ein mehrsprachiges seq2seq-Modell mit 20 Milliarden Parametern, das wir Alexa Teacher Model (AlexaTM 20B) nennen, und zeigen, dass es state-of-the-art (SOTA)-Leistung bei 1-Shot-Zusammenfassungsaufgaben erzielt und dabei ein deutlich größeres 540B-PaLM-decoder-Modell übertrifft. AlexaTM 20B erreicht zudem SOTA-Leistung bei 1-Shot-Maschinenübersetzung, insbesondere für Sprachen mit geringen Ressourcen, bei fast allen Sprachpaaren, die vom Modell unterstützt werden (Arabisch, Englisch, Französisch, Deutsch, Hindi, Italienisch, Japanisch, Marathi, Portugiesisch, Spanisch, Tamil und Telugu) auf dem Flores-101-Datensatz. Zudem zeigen wir in zero-shot-Szenarien, dass AlexaTM 20B GPT3 (175B) auf den SuperGLUE- und SQuADv2-Datensätzen übertrifft und SOTA-Leistung bei mehrsprachigen Aufgaben wie XNLI, XCOPA, Paws-X und XWinograd erzielt. Insgesamt legen unsere Ergebnisse ein überzeugendes Argument dafür vor, dass seq2seq-Modelle eine leistungsstarke Alternative zu decoder-only-Modellen im Kontext der Großskaligen Sprachmodellierung (LLM) darstellen.