Modèle de sac d'entités attentif pour la classification de texte

Cette étude propose un modèle de Neural Attentive Bag-of-Entities, qui est un modèle de réseau neuronal effectuant la classification de texte en utilisant des entités d'une base de connaissances. Les entités fournissent des signaux sémantiques non ambigus et pertinents, bénéfiques pour la capture de la sémantique dans les textes. Nous combinons une détection d'entités simple à haut rappel basée sur un dictionnaire, pour identifier les entités dans un document, avec un nouveau mécanisme d'attention neuronale permettant au modèle de se concentrer sur un petit nombre d'entités non ambiguës et pertinentes. Nous avons testé l'efficacité de notre modèle en utilisant deux jeux de données standard pour la classification de texte (à savoir, les jeux de données 20 Newsgroups et R8) ainsi qu'un jeu de données populaire pour le réponse aux questions factuelles basé sur un quiz trivial. En conséquence, notre modèle a obtenu des résultats à l'état de l'art sur tous les jeux de données. Le code source du modèle proposé est disponible en ligne à l'adresse https://github.com/wikipedia2vec/wikipedia2vec.