il y a 9 jours

Amélioration des modèles pré-entraînés grâce aux connaissances sur la structure du texte pour la génération de questions

Zichen Wu, Xin Jia, Fanyi Qu, Yunfang Wu

Résumé

Aujourd’hui, les modèles de langage pré-entraînés atteignent des succès remarquables sur la tâche de génération de questions (QG) et surpassent significativement les approches traditionnelles basées sur la séquence à séquence. Toutefois, ces modèles pré-entraînés traitent le passage d’entrée comme une séquence plate, ce qui les rend insensibles à la structure du texte. Pour la tâche de QG, nous modélisons la structure du texte à travers la position de la réponse et la dépendance syntaxique, et proposons deux mécanismes : une modélisation de la localité de la réponse et un attention masquée syntaxique, afin de surmonter ces limites. Plus précisément, nous introduisons une modélisation de localité basée sur un biais gaussien, permettant au modèle de se concentrer sur le contexte environnant la réponse, et proposons un mécanisme d’attention masquée pour rendre la structure syntaxique du passage d’entrée accessible durant le processus de génération de questions. Les expériences menées sur le jeu de données SQuAD montrent que nos deux modules proposés améliorent les performances par rapport au modèle pré-entraîné fort ProphetNet, et leur combinaison atteint des résultats très compétitifs par rapport aux modèles pré-entraînés de pointe.