ZeroGen : Apprentissage zéro-shot efficace grâce à la génération de jeux de données

L’intérêt croissant porté récemment à la génération de jeux de données découle de la capacité générative exceptionnelle des grands modèles linguistiques pré-entraînés (PLMs). Dans cet article, nous étudions une méthode souple et efficace d’apprentissage zéro-shot, appelée \textsc{ZeroGen}. Étant donné une tâche zéro-shot, nous générons d’abord un jeu de données de zéro, de manière non supervisée, à l’aide de PLMs. Ensuite, nous entraînons un modèle de tâche très léger (par exemple, un LSTM) en supervision sur ce jeu de données synthétisé. Cette approche permet une inférence extrêmement efficace, car le modèle de tâche final dispose d’un nombre de paramètres bien inférieur d’un ordre de grandeur par rapport aux PLMs (par exemple, GPT2-XL). Outre le fait d’être libre d’annotations et d’efficace, nous soutenons que \textsc{ZeroGen} peut également offrir des perspectives utiles du point de vue de la distillation de connaissances agnostique au modèle et sans référence, ainsi que de l’évaluation de la génération de texte non référencée. Des expériences et analyses menées sur différentes tâches de traitement du langage naturel — classification de texte, réponse aux questions et inférence linguistique — démontrent l’efficacité de \textsc{ZeroGen}.