Reconnaissance d'entités nommées dans les textes des médias sociaux avec une augmentation sémantique

Les approches existantes pour la reconnaissance d'entités nommées (NER) rencontrent des problèmes de rareté des données lorsqu'elles sont appliquées à des textes courts et informels, en particulier aux contenus générés par les utilisateurs sur les réseaux sociaux. L'augmentation sémantique apparaît comme une solution prometteuse pour atténuer ce problème. Étant donné que des informations sémantiques riches sont implicitement conservées dans les embeddings de mots pré-entraînés, ceux-ci constituent des ressources idéales potentielles pour l'augmentation sémantique. Dans cet article, nous proposons une approche neuronale pour la NER sur les textes issus des réseaux sociaux, prenant en compte à la fois la sémantique locale (extraite du texte lui-même) et la sémantique augmentée. Plus précisément, nous extrayons les informations sémantiques augmentées à partir d'un grand corpus, et proposons un module d'augmentation sémantique attentif ainsi qu'un module à porte pour respectivement encoder et agréger ces informations. Des expériences étendues ont été menées sur trois jeux de données de référence recueillis à partir de plateformes de réseaux sociaux anglaises et chinoises, les résultats démontrant la supériorité de notre approche par rapport aux études antérieures sur l'ensemble des trois jeux de données.