HyperAIHyperAI
vor 17 Tagen

Kontinuierliches Vortrainieren von Sprachmodellen

Zixuan Ke, Yijia Shao, Haowei Lin, Tatsuya Konishi, Gyuhak Kim, Bing Liu
Kontinuierliches Vortrainieren von Sprachmodellen
Abstract

Sprachmodelle (LMs) haben für den raschen Fortschritt der Verarbeitung natürlicher Sprache entscheidend beigetragen. Diese Arbeit untersucht das kontinuierliche Vortrainieren von LMs, insbesondere das kontinuierliche domain-adaptive Vortrainieren (kurz: kontinuierliches DAP-Vortrainieren). Bisherige Forschung hat gezeigt, dass die weitere Vortrainierung eines LMs mit einem domain-spezifischen Korpus, um das Modell an die jeweilige Domäne anzupassen, die Leistung bei Endaufgaben innerhalb dieser Domäne verbessern kann. In dieser Arbeit wird ein neuartiges Verfahren vorgestellt, das ein LM kontinuierlich DAP-trainiert, indem es eine Folge von unlabeled domain-spezifischen Korpora nutzt, um das Modell an diese Domänen anzupassen und somit deren Leistung bei Endaufgaben zu steigern. Der zentrale Innovationspunkt unseres Ansatzes ist eine Soft-Masking-Mechanismus, der die Aktualisierung des LMs direkt steuert. Zudem wird ein neues Proxy vorgeschlagen, um das allgemeine Wissen im ursprünglichen LM zu bewahren. Darüber hinaus wird der Vergleich der Repräsentationen des bereits gelernten Domänenwissens (einschließlich des allgemeinen Wissens im vortrainierten LM) mit der Repräsentation des Wissens aus dem aktuellen vollständigen Netzwerk durchgeführt, um eine Integration des Wissens zu erreichen. Der vorgeschlagene Ansatz überwindet nicht nur das Phänomen des katastrophalen Vergessens, sondern ermöglicht auch Wissensübertragung, was die Leistung bei Endaufgaben weiter verbessert. Empirische Evaluierungen belegen die Wirksamkeit des vorgeschlagenen Verfahrens.