HyperAIHyperAI
il y a 2 mois

Caractéristiques lexicales robustes pour une reconnaissance d'entités nommées améliorée par réseau neuronal

Abbas Ghaddar; Philippe Langlais
Caractéristiques lexicales robustes pour une reconnaissance d'entités nommées améliorée par réseau neuronal
Résumé

Les approches par réseaux de neurones pour la reconnaissance d'entités nommées (Named-Entity Recognition) réduisent le besoin de caractéristiques soigneusement conçues à la main. Bien que certaines caractéristiques restent présentes dans les systèmes d'avant-garde, les caractéristiques lexicales ont été en grande partie abandonnées, à l'exception des listes de noms propres (gazetteers). Dans ce travail, nous montrons que cette situation est injuste : les caractéristiques lexicales sont en réalité très utiles. Nous proposons d'intégrer les mots et les types d'entités dans un espace vectoriel de faible dimension que nous entraînons à partir de données annotées produites grâce à une supervision distante utilisant Wikipedia. À partir de cela, nous calculons - hors ligne - un vecteur de caractéristiques représentant chaque mot. Lorsqu'il est utilisé avec un modèle de réseau neuronal récurrent standard, cette représentation apporte des améliorations substantielles. Nous établissons un nouveau score F1 d'avant-garde de 87,95 sur ONTONOTES 5.0, tout en atteignant des performances d'avant-garde avec un score F1 de 91,73 sur le jeu de données CONLL-2003 largement étudié.