HyperAIHyperAI

Command Palette

Search for a command to run...

Retour à la case départ : détection d'artefacts, apprentissage et déenchevêtrement du sens commun dans le schéma de Winograd

Yanai Elazar Hongming Zhang Yoav Goldberg Dan Roth

Résumé

Le schéma de Winograd (WS) a été proposé comme test pour mesurer les capacités de bon sens des modèles. Récemment, les approches fondées sur les modèles de langage pré-entraînés ont permis d'améliorer les performances sur certaines benchmarks WS, mais la source de cette amélioration reste incertaine. Ce papier soutient que l'avancement apparent observé sur WS ne reflète pas nécessairement une véritable progression dans le raisonnement de bon sens. Pour étayer cette affirmation, nous montrons d'abord que la méthode actuelle d'évaluation du WS est sous-optimale, et proposons une modification qui utilise des paires de phrases jumelles pour l'évaluation. Nous proposons également deux nouveaux baselines qui mettent en évidence la présence d'artefacts dans les benchmarks WS. Ensuite, nous développons une méthode d'évaluation de phrases similaires au WS dans un cadre zero-shot, afin de tenir compte des capacités de raisonnement de bon sens acquises durant l'entraînement préalable, et observons que les modèles de langage populaires se comportent de manière aléatoire dans ce cadre, lorsque nous appliquons une évaluation plus stricte. Nous concluons que l'amélioration observée est principalement due à l'utilisation de la supervision lors de l'entraînement des modèles WS, ce qui est peu susceptible de soutenir efficacement l'ensemble des compétences et des connaissances nécessaires au raisonnement de bon sens.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp