WinoGrande : Un Défi Adversarial de Schéma Winograd à Grande Échelle

Le Défi de Winograd (WSC) (Levesque, Davis et Morgenstern 2011), un benchmark pour l'évaluation du raisonnement de bon sens, est une collection de 273 problèmes d'ambiguïté pronominale conçus initialement pour être insolubles par les modèles statistiques basés sur les préférences sélèctionnelles ou les associations lexicales. Cependant, les récents progrès dans les modèles de langage neuronaux ont déjà atteint une précision d'environ 90 % sur des variantes du WSC. Ceci soulève une question importante : ces modèles ont-ils véritablement acquis des capacités robustes en matière de bon sens, ou s'appuient-ils sur des biais spurieux présents dans les jeux de données qui conduisent à une surestimation des véritables capacités de bon sens des machines ? Pour explorer cette question, nous présentons WinoGrande, un jeu de données à grande échelle comprenant 44 000 problèmes, inspiré par la conception originale du WSC mais ajusté pour améliorer à la fois l'échelle et la difficulté du jeu de données.Les principales étapes de la construction du jeu de données consistent en (1) une procédure de crowdsourcing soigneusement conçue, suivie par (2) une réduction systématique des biais utilisant un nouvel algorithme AfLite qui généralise les associations lexicales détectables par l'homme aux associations d'embeddings détectables par machine. Les meilleures méthodes actuelles sur WinoGrande atteignent une précision comprise entre 59,4 % et 79,1 %, soit 15 à 35 % en dessous des performances humaines estimées à 94,0 %, selon la quantité de données d'entraînement autorisée. De plus, nous établissons de nouveaux résultats d'état de l'art sur cinq benchmarks connexes : WSC (90,1 %), DPR (93,1 %), COPA (90,6 %), KnowRef (85,6 %) et Winogender (97,1 %). Ces résultats ont deux implications : d'une part, ils démontrent l'efficacité de WinoGrande lorsqu'il est utilisé comme ressource pour l'apprentissage par transfert ; d'autre part, ils soulèvent une inquiétude quant au fait que nous sommes probablement en train de surestimer les véritables capacités de bon sens des machines sur tous ces benchmarks. Nous soulignons l'importance d'une réduction algorithmique des biais dans les benchmarks existants et futurs afin d'atténuer cette surestimation.