il y a 8 jours

ProGen : Génération progressive de jeux de données zéro-shot par rétroaction dans le contexte

Jiacheng Ye, Jiahui Gao, Jiangtao Feng, Zhiyong Wu, Tao Yu, Lingpeng Kong

Résumé

Récemment, l’apprentissage zéro-shot fondé sur la génération de jeux de données a montré des résultats prometteurs en entraînant un modèle spécifique à une tâche à partir d’un jeu de données synthétisé à partir de grands modèles linguistiques pré-entraînés (PLM). Le modèle final spécifique à la tâche atteint souvent des performances comparables, voire supérieures, aux PLM dans un cadre zéro-shot, tout en disposant d’un nombre de paramètres réduit d’un ordre de grandeur. Toutefois, les jeux de données synthétisés présentent des inconvénients. Ils souffrent depuis longtemps de problèmes de faible qualité (par exemple, faible informationnalité et redondance). Cela explique pourquoi les grandes quantités de données synthétisées ne se traduisent pas nécessairement par de meilleures performances — une situation que l’on observerait normalement avec des données étiquetées par des humains. Pour améliorer la qualité de la synthèse des jeux de données, nous proposons un cadre progressif de génération de jeux de données zéro-shot, appelé ProGen, qui exploite les retours du modèle spécifique à la tâche afin de guider la génération de nouvelles données d’entraînement à l’aide d’exemples contextuels. Des expériences étendues sur cinq jeux de données de classification de texte démontrent l’efficacité de l’approche proposée. Nous montrons également que ProGen atteint des performances équivalentes ou supérieures à celles des méthodes de base, tout en utilisant uniquement 1 % de la taille du jeu de données synthétisé, contre les méthodes sans retour contextuel.