vor 17 Tagen

Differentiable Prompt macht vortrainierte Sprachmodelle zu besseren Few-shot-Lernern

Ningyu Zhang, Luoqiu Li, Xiang Chen, Shumin Deng, Zhen Bi, Chuanqi Tan, Fei Huang, Huajun Chen

Abstract

Großskalige vortrainierte Sprachmodelle haben der natürlichen Sprachverarbeitung erheblich vorangetrieben, indem sie bemerkenswerte Fähigkeiten als Few-Shot-Lerner demonstrierten. Ihre Effektivität hängt jedoch hauptsächlich von der Skalierung der Modellparameter und der Gestaltung von Prompt-Vorlagen ab, was ihre Anwendung in den meisten realen Anwendungen erschwert. Diese Studie präsentiert einen neuartigen, steckbaren, erweiterbaren und effizienten Ansatz namens DifferentiAble pRompT (DART), der kleine Sprachmodelle in effektivere Few-Shot-Lerner umwandeln kann, ohne dass eine Prompt-Engineering-Phase erforderlich ist. Das zentrale Prinzip dieses Ansatzes besteht darin, potenzielle Aufgaben der natürlichen Sprachverarbeitung neu zu formulieren, um sie als Aufgabe eines vortrainierten Sprachmodells zu interpretieren, und dabei die Prompt-Vorlage sowie das Ziellabel durch differenzielle Optimierung mittels Rückpropagation zu verbessern. Darüber hinaus lässt sich der vorgeschlagene Ansatz: (i) an beliebige vortrainierte Sprachmodelle anschließen; (ii) auf eine Vielzahl klassifizierender Aufgaben erweitern. Eine umfassende Bewertung standardisierter NLP-Aufgaben zeigt, dass der vorgeschlagene Ansatz eine bessere Few-Shot-Leistung erzielt. Der Quellcode ist unter https://github.com/zjunlp/DART verfügbar.