mGPT: Few-Shot Lerner werden mehrsprachig

Neuere Studien berichten, dass autoregressive Sprachmodelle erfolgreich viele NLP-Aufgaben durch zero- und few-shot-Lernparadigmen lösen können, was neue Möglichkeiten für die Nutzung vortrainierter Sprachmodelle eröffnet. In dieser Arbeit werden zwei autoregressive GPT-ähnliche Modelle mit 1,3 Milliarden und 13 Milliarden Parametern vorgestellt, die auf 60 Sprachen aus 25 Sprachfamilien basierend auf Wikipedia und dem Colossal Clean Crawled Corpus trainiert wurden. Wir reproduzieren die GPT-3-Architektur unter Verwendung von GPT-2-Quellen und des dünn besetzten Aufmerksamkeitsmechanismus (sparse attention mechanism); die Frameworks Deepspeed und Megatron ermöglichen es uns, die Trainings- und Inferenzschritte effektiv zu parallelisieren. Die resultierenden Modelle zeigen eine Leistung, die mit den kürzlich von Facebook veröffentlichten XGLM-Modellen vergleichbar ist, wobei sie mehr Sprachen abdecken und die NLP-Möglichkeiten für ressourcenarme Sprachen der CIS-Länder und kleiner russischer Völker verbessern. Wir erläutern detailliert die Motivation für die Wahl der Architekturdesigns, beschreiben gründlich den Datenbereitstellungspipeline und trainieren fünf kleinere Versionen des Modells, um die optimale multilinguale Tokenisierungsstrategie auszuwählen. Wir messen die Perplexität des Modells in allen abgedeckten Sprachen und bewerten es anhand eines breiten Spektrums multilingualer Aufgaben, einschließlich Klassifizierung, Generierung, Sequenzbeschriftung und Wissensabtastung. Die Modelle wurden sowohl mit zero-shot als auch mit few-shot-Methoden evaluiert. Darüber hinaus verglichen wir die Klassifizierungsaufgaben mit dem state-of-the-art multilingualen Modell XGLM. Der Quellcode sowie das mGPT XL-Modell sind öffentlich zugänglich veröffentlicht worden.