HyperAIHyperAI

Command Palette

Search for a command to run...

mGPT: Few-Shot Lerner werden mehrsprachig

Oleh Shliazhko extsuperscript1,* Alena Fenogenova extsuperscript2 Maria Tikhonova extsuperscript2,3 Anastasia Kozlova extsuperscript2 Vladislav Mikhailov extsuperscript2,*† Tatiana Shayrina extsuperscript2,4,5,6,*

Zusammenfassung

Neuere Studien berichten, dass autoregressive Sprachmodelle erfolgreich viele NLP-Aufgaben durch zero- und few-shot-Lernparadigmen lösen können, was neue Möglichkeiten für die Nutzung vortrainierter Sprachmodelle eröffnet. In dieser Arbeit werden zwei autoregressive GPT-ähnliche Modelle mit 1,3 Milliarden und 13 Milliarden Parametern vorgestellt, die auf 60 Sprachen aus 25 Sprachfamilien basierend auf Wikipedia und dem Colossal Clean Crawled Corpus trainiert wurden. Wir reproduzieren die GPT-3-Architektur unter Verwendung von GPT-2-Quellen und des dünn besetzten Aufmerksamkeitsmechanismus (sparse attention mechanism); die Frameworks Deepspeed und Megatron ermöglichen es uns, die Trainings- und Inferenzschritte effektiv zu parallelisieren. Die resultierenden Modelle zeigen eine Leistung, die mit den kürzlich von Facebook veröffentlichten XGLM-Modellen vergleichbar ist, wobei sie mehr Sprachen abdecken und die NLP-Möglichkeiten für ressourcenarme Sprachen der CIS-Länder und kleiner russischer Völker verbessern. Wir erläutern detailliert die Motivation für die Wahl der Architekturdesigns, beschreiben gründlich den Datenbereitstellungspipeline und trainieren fünf kleinere Versionen des Modells, um die optimale multilinguale Tokenisierungsstrategie auszuwählen. Wir messen die Perplexität des Modells in allen abgedeckten Sprachen und bewerten es anhand eines breiten Spektrums multilingualer Aufgaben, einschließlich Klassifizierung, Generierung, Sequenzbeschriftung und Wissensabtastung. Die Modelle wurden sowohl mit zero-shot als auch mit few-shot-Methoden evaluiert. Darüber hinaus verglichen wir die Klassifizierungsaufgaben mit dem state-of-the-art multilingualen Modell XGLM. Der Quellcode sowie das mGPT XL-Modell sind öffentlich zugänglich veröffentlicht worden.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp