Un Trick Surprenant et Robuste pour le Défi de Winograd Schema

Le jeu de données Winograd Schema Challenge (WSC) WSC273 et son équivalent d'inférence WNLI sont des références populaires pour l'évaluation de la compréhension du langage naturel et du raisonnement basé sur le sens commun. Dans cet article, nous démontrons que les performances de trois modèles de langage s'améliorent considérablement sur WSC273 lorsqu'ils sont affinés sur un jeu de données similaire de désambiguïsation des pronoms (dénommé WSCR). Nous générons également un grand jeu de données non supervisé ressemblant au WSC. En affinant le modèle de langage BERT à la fois sur le jeu de données introduit et sur le jeu de données WSCR, nous obtenons des précisions globales de 72,5 % et 74,7 % sur WSC273 et WNLI, améliorant ainsi les solutions précédentes les plus avancées (state-of-the-art) respectivement de 8,8 % et 9,6 %. De plus, nos modèles affinés se montrent également plus robustes et cohérents sur les sous-ensembles « complexes » de WSC273, introduits par Trichelair et al. (2018).