HyperAIHyperAI
vor 3 Monaten

Antagonistische Ausbildung für große neuronale Sprachmodelle

Xiaodong Liu, Hao Cheng, Pengcheng He, Weizhu Chen, Yu Wang, Hoifung Poon, Jianfeng Gao
Antagonistische Ausbildung für große neuronale Sprachmodelle
Abstract

Verallgemeinerung und Robustheit sind beide zentrale Anforderungen bei der Entwicklung von maschinellen Lernmethoden. Adversariales Training kann die Robustheit verbessern, doch zeigt die bisherige Forschung oft, dass es die Verallgemeinerung beeinträchtigt. In der natürlichen Sprachverarbeitung (NLP) haben vortrainierte große neuronale Sprachmodelle wie BERT erhebliche Fortschritte bei der Verallgemeinerung verschiedener Aufgaben demonstriert, wobei sich die Leistung durch adversariales Feintuning weiter steigern lässt. Dennoch bleiben diese Modelle weiterhin anfällig für adversariale Angriffe. In diesem Artikel zeigen wir, dass adversariales Vortrainieren sowohl die Verallgemeinerung als auch die Robustheit verbessern kann. Wir stellen einen allgemeinen Algorithmus ALUM (Adversarial training for large neural LangUage Models) vor, der das Trainingsziel durch Anwendung von Störungen im Embedding-Raum regularisiert, die die adversariale Verlustfunktion maximieren. Wir präsentieren die erste umfassende Studie zum adversarialen Training über alle Phasen hinweg, einschließlich Vortrainings von Grund auf, kontinuierlichen Vortrainings auf bereits gut trainierten Modellen sowie aufgabenbezogenen Feintuning. ALUM erreicht erhebliche Verbesserungen gegenüber BERT bei einer Vielzahl von NLP-Aufgaben, sowohl in normalen als auch in adversarialen Szenarien. Selbst bei Modellen, die bereits auf extrem großen Textkorpora gut trainiert wurden, wie RoBERTa, kann ALUM durch kontinuierliches Vortrainen signifikante Verbesserungen erzielen, während herkömmliche nicht-adversariale Methoden hier keine Verbesserungen mehr liefern. ALUM lässt sich zudem mit aufgabenbezogenem Feintuning kombinieren, um zusätzliche Leistungssteigerungen zu erzielen. Der ALUM-Code ist öffentlich unter https://github.com/namisan/mt-dnn verfügbar.