HyperAIHyperAI
vor 17 Tagen

Kontinuierliches Training von Sprachmodellen für Few-Shot-Lernen

Zixuan Ke, Haowei Lin, Yijia Shao, Hu Xu, Lei Shu, Bing Liu
Kontinuierliches Training von Sprachmodellen für Few-Shot-Lernen
Abstract

Neuere Arbeiten zur Anwendung großer Sprachmodelle (LMs) erzielen beeindruckende Leistungen in vielen NLP-Anwendungen. Die Anpassung oder Nachtrainierung eines LMs anhand einer unlabeled Domain-Korpus kann eine noch bessere Leistung für Endaufgaben innerhalb dieser Domäne ermöglichen. In dieser Arbeit wird das Problem vorgestellt, ein LM kontinuierlich zu erweitern, indem es schrittweise mit einer Folge unlabeled Domain-Korpora nachtrainiert wird, um sein Wissen zu erweitern, ohne dabei seine vorherigen Fähigkeiten zu vergessen. Ziel ist es, die Few-Shot-Endaufgaben-Lernleistung in diesen Domänen zu verbessern. Das resultierende System wird CPT (Continual PostTraining) genannt, das, soweit uns bekannt, das erste kontinuierliche Nachtrainierungs-System ist. Experimentelle Ergebnisse bestätigen dessen Wirksamkeit.

Kontinuierliches Training von Sprachmodellen für Few-Shot-Lernen | Neueste Forschungsarbeiten | HyperAI