HyperAIHyperAI
il y a 2 mois

BoolQ : Explorer la Difficulté Surprenante des Questions Naturelles Oui/Non

Christopher Clark; Kenton Lee; Ming-Wei Chang; Tom Kwiatkowski; Michael Collins; Kristina Toutanova
BoolQ : Explorer la Difficulté Surprenante des Questions Naturelles Oui/Non
Résumé

Dans cet article, nous étudions les questions de type oui/non qui se produisent naturellement — c'est-à-dire qu'elles sont générées dans des contextes non sollicités et sans contrainte. Nous avons constitué un jeu de données de compréhension de la lecture, BoolQ, composé de telles questions, et nous montrons qu'elles sont inattendument complexes. Elles interrogent souvent sur des informations complexes et non factuelles, et nécessitent des inférences similaires à celles requises pour l'entraînement en entraînement (entailment). Nous explorons également l'efficacité d'une gamme de méthodes de transfert d'apprentissage. Nous constatons que le transfert à partir de données d'entraînement (entailment) est plus efficace que le transfert à partir de données de paraphrase ou de questions-réponses extractives, et qu'il reste très bénéfique même lorsqu'on part de grands modèles linguistiques pré-entraînés tels que BERT. Notre meilleure méthode consiste à entraîner BERT sur MultiNLI puis à le ré-entraîner sur notre ensemble d'entraînement. Elle atteint une précision de 80,4 % par rapport à une précision de 90 % des annotateurs humains (et 62 % pour la méthode majoritaire), laissant ainsi un écart significatif pour les travaux futurs.