Retour à la case départ : détection d'artefacts, apprentissage et déenchevêtrement du sens commun dans le schéma de Winograd

Le schéma de Winograd (WS) a été proposé comme test pour mesurer les capacités de bon sens des modèles. Récemment, les approches fondées sur les modèles de langage pré-entraînés ont permis d'améliorer les performances sur certaines benchmarks WS, mais la source de cette amélioration reste incertaine. Ce papier soutient que l'avancement apparent observé sur WS ne reflète pas nécessairement une véritable progression dans le raisonnement de bon sens. Pour étayer cette affirmation, nous montrons d'abord que la méthode actuelle d'évaluation du WS est sous-optimale, et proposons une modification qui utilise des paires de phrases jumelles pour l'évaluation. Nous proposons également deux nouveaux baselines qui mettent en évidence la présence d'artefacts dans les benchmarks WS. Ensuite, nous développons une méthode d'évaluation de phrases similaires au WS dans un cadre zero-shot, afin de tenir compte des capacités de raisonnement de bon sens acquises durant l'entraînement préalable, et observons que les modèles de langage populaires se comportent de manière aléatoire dans ce cadre, lorsque nous appliquons une évaluation plus stricte. Nous concluons que l'amélioration observée est principalement due à l'utilisation de la supervision lors de l'entraînement des modèles WS, ce qui est peu susceptible de soutenir efficacement l'ensemble des compétences et des connaissances nécessaires au raisonnement de bon sens.