FusionNet : Fusion par l'attention pleinement consciente avec application à la compréhension machine

Ce document présente une nouvelle structure neuronale appelée FusionNet, qui étend les approches d'attention existantes sous trois angles. Premièrement, il introduit un nouveau concept de « histoire du mot » pour caractériser l'information d'attention à partir du niveau le plus bas des plongements (embeddings) de mots jusqu'au niveau le plus élevé des représentations sémantiques. Deuxièmement, il propose une fonction de notation d'attention améliorée qui utilise mieux le concept de « histoire du mot ». Troisièmement, il met en avant un mécanisme d'attention multiveau pleinement conscient pour capturer l'information complète dans un texte (comme une question) et l'exploiter couche par couche dans son équivalent (comme le contexte ou le passage).Nous appliquons FusionNet au jeu de données Stanford Question Answering (SQuAD) et, au moment où nous écrivons ce document (le 4 octobre 2017), il occupe la première place tant pour le modèle individuel que pour l’ensemble de modèles sur le classement officiel SQuAD. Parallèlement, nous vérifions la généralisation de FusionNet avec deux jeux de données SQuAD adverses et il établit de nouveaux records dans les deux : sur AddSent, FusionNet augmente le meilleur score F1 de 46,6 % à 51,4 % ; sur AddOneSent, FusionNet améliore le meilleur score F1 de 56,0 % à 60,7 %.