il y a 3 mois

Pingan Smart Health et SJTU dans le cadre de COIN - Tâche partagée : exploitation de modèles de langage pré-entraînés et de connaissances courantes dans les tâches de lecture automatique

{Wei Zhu, Peng Gao, Zheng Li, Xiepeng Li, Junchi Yan, Yuan Ni, Zhexi Zhang, Guotong Xie}

Résumé

Pour résoudre les tâches partagées du workshop COIN (Commonsense Inference in Natural Language Processing), il est nécessaire d’explorer l’impact de la représentation des connaissances dans la modélisation de la connaissance commune afin d’améliorer les performances de la compréhension automatique du texte au-delà des simples correspondances textuelles. Deux approches principales permettent de représenter les connaissances dans un espace à faible dimension. La première consiste à exploiter de grands corpus de texte non étiquetés afin d’entraîner des représentations linguistiques fixes ou contextuelles. La seconde approche consiste à exprimer explicitement les connaissances sous forme de graphe de connaissances (KG), puis à ajuster un modèle pour représenter les faits contenus dans ce graphe. Nous avons expérimenté deux stratégies : (a) améliorer le fine-tuning des modèles pré-entraînés sur une tâche à faible taille de données en exploitant des jeux de données de tâches similaires ; et (b) intégrer les représentations distributionnelles d’un KG aux représentations des modèles pré-entraînés, par concaténation simple ou via une attention à plusieurs têtes. Nos résultats montrent que : (a) pour la tâche 1, un premier fine-tuning sur des jeux de données plus volumineux comme RACE (Lai et al., 2017) et SWAG (Zellers et al., 2018), suivi d’un fine-tuning sur la tâche cible, améliore significativement les performances ; (b) pour la tâche 2, l’intégration d’un KG de connaissance commune, WordNet (Miller, 1995), dans le modèle Bert (Devlin et al., 2018) s’avère bénéfique, tandis qu’elle nuit aux performances du modèle XLNet (Yang et al., 2019), un modèle pré-entraîné plus puissant. Nos approches atteignent des résultats de pointe sur les données de test officielles des deux tâches partagées, surpassant toutes les autres soumissions.