vor 17 Tagen

Kontinuierliches Training von Sprachmodellen für Few-Shot-Lernen

Zixuan Ke, Haowei Lin, Yijia Shao, Hu Xu, Lei Shu, Bing Liu

Abstract

Neuere Arbeiten zur Anwendung großer Sprachmodelle (LMs) erzielen beeindruckende Leistungen in vielen NLP-Anwendungen. Die Anpassung oder Nachtrainierung eines LMs anhand einer unlabeled Domain-Korpus kann eine noch bessere Leistung für Endaufgaben innerhalb dieser Domäne ermöglichen. In dieser Arbeit wird das Problem vorgestellt, ein LM kontinuierlich zu erweitern, indem es schrittweise mit einer Folge unlabeled Domain-Korpora nachtrainiert wird, um sein Wissen zu erweitern, ohne dabei seine vorherigen Fähigkeiten zu vergessen. Ziel ist es, die Few-Shot-Endaufgaben-Lernleistung in diesen Domänen zu verbessern. Das resultierende System wird CPT (Continual PostTraining) genannt, das, soweit uns bekannt, das erste kontinuierliche Nachtrainierungs-System ist. Experimentelle Ergebnisse bestätigen dessen Wirksamkeit.