HyperAIHyperAI
il y a 2 mois

Amélioration de la compréhension de lecture des machines grâce à des stratégies de lecture générales

Kai Sun; Dian Yu; Dong Yu; Claire Cardie
Amélioration de la compréhension de lecture des machines grâce à des stratégies de lecture générales
Résumé

Les stratégies de lecture ont été démontrées pour améliorer les niveaux de compréhension, en particulier pour les lecteurs qui manquent de connaissances préalables adéquates. De même que le processus d'accumulation de connaissances est chronophage pour les lecteurs humains, il est exigeant en ressources d'intégrer des connaissances générales riches dans un modèle de langage profond par le biais d'un pré-entraînement. Inspirés par les stratégies de lecture identifiées dans la science cognitive, et compte tenu des ressources informatiques limitées -- uniquement un modèle pré-entraîné et un nombre fixe d'instances d'entraînement -- nous proposons trois stratégies générales visant à améliorer la compréhension de lecture automatique non extractive (MRC) : (i) LA LECTURE ALLER-RETOUR qui prend en compte à la fois l'ordre original et inverse d'une séquence d'entrée, (ii) LA MISE EN ÉVIDENCE, qui ajoute une empreinte apprenable à l'empreinte textuelle des jetons pertinents pour la question et les réponses candidates, et (iii) L'ÉVALUATION AUTO-RÉFLÉCHIE qui génère des questions d'exercice et des réponses candidates directement à partir du texte de manière non supervisée.En affinant un modèle de langage pré-entraîné (Radford et al., 2018) avec nos stratégies proposées sur le plus grand ensemble de données MRC à choix multiples dans le domaine général RACE, nous obtenons une augmentation absolue de 5,8 % en précision par rapport au meilleur résultat précédent obtenu par le même modèle pré-entraîné affiné sur RACE sans l'utilisation de stratégies. Nous affinons davantage le modèle résultant sur une tâche MRC cible, ce qui conduit à une amélioration absolue moyenne de 6,2 % en précision par rapport aux approches précédentes les plus avancées sur six ensembles de données représentatifs non extractifs MRC provenant de différents domaines (à savoir ARC, OpenBookQA, MCTest, SemEval-2018 Task 11, ROCStories et MultiRC). Ces résultats démontrent l'efficacité de nos stratégies proposées ainsi que la polyvalence et l'applicabilité générale de nos modèles affinés intégrant ces stratégies. Le code source est disponible à l'adresse https://github.com/nlpdata/strategy/.