HyperAIHyperAI
il y a 2 mois

Modélisation de la Bruit pour Reconnaître les Entités Nommées à l'aide de Réseaux Neuronaux Multitâches sur les Médias Sociaux

Gustavo Aguilar; A. Pastor López-Monroy; Fabio A. González; Thamar Solorio
Modélisation de la Bruit pour Reconnaître les Entités Nommées à l'aide de Réseaux Neuronaux Multitâches sur les Médias Sociaux
Résumé

La reconnaissance d'entités nommées dans un document est une tâche clé dans de nombreuses applications de traitement du langage naturel (NLP). Bien que les approches actuelles de pointe pour cette tâche atteignent des performances élevées sur des textes propres (par exemple, les genres de nouvelles), ces algorithmes se dégradent considérablement lorsqu'ils sont appliqués à des environnements bruyants tels que les domaines des médias sociaux. Nous présentons deux systèmes qui répondent aux défis du traitement des données issues des médias sociaux en utilisant la phonétique et la phonologie au niveau des caractères, les plongements de mots (word embeddings) et les étiquettes morphosyntaxiques (Part-of-Speech tags) comme caractéristiques. Le premier modèle est un réseau Bidirectionnel Long Short-Term Memory (BLSTM)-Conditional Random Field (CRF) end-to-end dont la couche de sortie contient deux classifieurs CRF. Le deuxième modèle utilise un réseau BLSTM multitâche comme extracteur de caractéristiques, transférant l'apprentissage à un classifieur CRF pour la prédiction finale. Nos systèmes surpassent les scores F1 actuels de l'état de l'art sur le jeu de données du Workshop on Noisy User-generated Text 2017 (WNUT 2017) avec une amélioration respective de 2,45 % et 3,69 %, établissant ainsi une approche plus adaptée aux environnements des médias sociaux.

Modélisation de la Bruit pour Reconnaître les Entités Nommées à l'aide de Réseaux Neuronaux Multitâches sur les Médias Sociaux | Articles de recherche récents | HyperAI