Kontinuierliches Training von Sprachmodellen für Few-Shot-Lernen

Neuere Arbeiten zur Anwendung großer Sprachmodelle (LMs) erzielen beeindruckende Leistungen in vielen NLP-Anwendungen. Die Anpassung oder Nachtrainierung eines LMs anhand einer unlabeled Domain-Korpus kann eine noch bessere Leistung für Endaufgaben innerhalb dieser Domäne ermöglichen. In dieser Arbeit wird das Problem vorgestellt, ein LM kontinuierlich zu erweitern, indem es schrittweise mit einer Folge unlabeled Domain-Korpora nachtrainiert wird, um sein Wissen zu erweitern, ohne dabei seine vorherigen Fähigkeiten zu vergessen. Ziel ist es, die Few-Shot-Endaufgaben-Lernleistung in diesen Domänen zu verbessern. Das resultierende System wird CPT (Continual PostTraining) genannt, das, soweit uns bekannt, das erste kontinuierliche Nachtrainierungs-System ist. Experimentelle Ergebnisse bestätigen dessen Wirksamkeit.