il y a 17 jours

Les prompts différentiables rendent les modèles linguistiques pré-entraînés de meilleurs apprentis en peu d'exemples

Ningyu Zhang, Luoqiu Li, Xiang Chen, Shumin Deng, Zhen Bi, Chuanqi Tan, Fei Huang, Huajun Chen

Résumé

Les grands modèles linguistiques préentraînés ont apporté une contribution significative au traitement du langage naturel en démontrant des capacités remarquables en apprentissage à faible exemple (few-shot learning). Toutefois, leur efficacité repose principalement sur l’augmentation du nombre de paramètres du modèle et sur la conception de prompts, ce qui limite leur déploiement dans la plupart des applications du monde réel. Cette étude propose une nouvelle approche plug-and-play, extensible et efficace, nommée DifferentiAble pRompT (DART), permettant de transformer des petits modèles linguistiques en meilleurs apprentis à faible exemple, sans nécessiter d’ingénierie de prompts. Le principe fondamental de cette méthode consiste à reformuler les tâches potentielles de traitement du langage naturel en une tâche de modèle linguistique préentraîné, tout en optimisant de manière différentiable le modèle de prompt ainsi que les étiquettes cibles par rétropropagation. En outre, l’approche proposée peut être : (i) intégrée à tout modèle linguistique préentraîné ; (ii) étendue à un large éventail de tâches de classification. Une évaluation complète sur des tâches standard de traitement du langage naturel montre que l’approche proposée atteint des performances supérieures en apprentissage à faible exemple. Le code est disponible à l’adresse suivante : https://github.com/zjunlp/DART.