Un réseau multi-type et multi-span pour la compréhension de la lecture nécessitant un raisonnement discret

Des progrès rapides ont été réalisés dans le domaine de la compréhension de la lecture et de la réponse aux questions, où plusieurs systèmes ont atteint une parité humaine dans certaines configurations simplifiées. Cependant, les performances de ces modèles se dégradent considérablement lorsqu'ils sont appliqués à des scénarios plus réalistes, tels que des réponses impliquant divers types, plusieurs chaînes de texte étant des réponses correctes, ou nécessitant des capacités de raisonnement discret. Dans cet article, nous présentons le réseau Multi-Type Multi-Span (MTMSN), un modèle de compréhension neuronale qui combine un prédicteur de réponses multi-type conçu pour prendre en charge divers types de réponses (par exemple, span, comptage, négation et expression arithmétique) avec une méthode d'extraction multi-span pour produire dynamiquement une ou plusieurs chaînes de texte. De plus, un mécanisme de re-rangement d'expressions arithmétiques est proposé pour classer les candidats d'expression afin de confirmer davantage la prédiction. Les expériences montrent que notre modèle atteint un score F1 de 79,9 sur l'ensemble de tests caché DROP, créant ainsi de nouveaux résultats d'état de l'art. Le code source\footnote{\url{https://github.com/huminghao16/MTMSN}} est rendu disponible pour faciliter les travaux futurs.