Kreuzsprachliche Generalisierung durch Multitask-Finetuning

Multitask-Verfeinerung (MTF) hat sich als wirksam erwiesen, um große Sprachmodelle dazu zu befähigen, sich auf neue Aufgaben im Zero-Shot-Szenario zu verallgemeinern. Bisher konzentrierten sich jedoch die Untersuchungen zu MTF hauptsächlich auf englische Daten und Modelle. Wir wenden MTF auf die vortrainierten mehrsprachigen Modellfamilien BLOOM und mT5 an, um verfeinerte Varianten namens BLOOMZ und mT0 zu erzeugen. Wir stellen fest, dass die Verfeinerung großer mehrsprachiger Sprachmodelle an englischen Aufgaben mit englischen Prompt-Formulierungen eine Verallgemeinerung auf nicht-englische Sprachen ermöglicht, die lediglich im Vortrainingskorpus auftauchen. Die Verfeinerung an mehrsprachigen Aufgaben mit englischen Prompt-Formulierungen verbessert zudem die Leistung sowohl auf englischen als auch auf nicht-englischen Aufgaben und führt zu mehreren state-of-the-art-Ergebnissen im Zero-Shot-Setting. Darüber hinaus untersuchen wir die Verfeinerung an mehrsprachigen Aufgaben mit Prompt-Formulierungen, die maschinell aus dem Englischen in die jeweilige Sprache des Datensatzes übersetzt wurden. Wir beobachten, dass die Ausbildung an diesen maschinell übersetzten Prompts zu einer besseren Leistung bei menschlich verfassten Prompts in den entsprechenden Sprachen führt. Überraschenderweise stellen wir fest, dass die Modelle in der Lage sind, Zero-Shot-Verallgemeinerung auf Aufgaben in Sprachen durchzuführen, die sie nie gezielt gesehen haben. Wir vermuten, dass die Modelle hochrangige Fähigkeiten erlernen, die sowohl aufgaben- als auch sprachunabhängig sind. Zusätzlich führen wir xP3 ein, eine Zusammensetzung überwachter Datensätze in 46 Sprachen mit englischen und maschinell übersetzten Prompts. Unsere Code-Base, Datensätze und Modelle sind frei zugänglich unter https://github.com/bigscience-workshop/xmtf.