Command Palette
Search for a command to run...
Caractéristiques lexicales robustes pour une reconnaissance d'entités nommées améliorée par réseau neuronal
Caractéristiques lexicales robustes pour une reconnaissance d'entités nommées améliorée par réseau neuronal
Abbas Ghaddar Philippe Langlais
Résumé
Les approches par réseaux de neurones pour la reconnaissance d'entités nommées (Named-Entity Recognition) réduisent le besoin de caractéristiques soigneusement conçues à la main. Bien que certaines caractéristiques restent présentes dans les systèmes d'avant-garde, les caractéristiques lexicales ont été en grande partie abandonnées, à l'exception des listes de noms propres (gazetteers). Dans ce travail, nous montrons que cette situation est injuste : les caractéristiques lexicales sont en réalité très utiles. Nous proposons d'intégrer les mots et les types d'entités dans un espace vectoriel de faible dimension que nous entraînons à partir de données annotées produites grâce à une supervision distante utilisant Wikipedia. À partir de cela, nous calculons - hors ligne - un vecteur de caractéristiques représentant chaque mot. Lorsqu'il est utilisé avec un modèle de réseau neuronal récurrent standard, cette représentation apporte des améliorations substantielles. Nous établissons un nouveau score F1 d'avant-garde de 87,95 sur ONTONOTES 5.0, tout en atteignant des performances d'avant-garde avec un score F1 de 91,73 sur le jeu de données CONLL-2003 largement étudié.