TENER : Adaptation du Transformer Encoder pour la reconnaissance d'entités nommées

Les réseaux de mémoire à long et court terme bidirectionnels (BiLSTM) sont largement utilisés comme encodeur dans les modèles destinés à résoudre la tâche de reconnaissance d'entités nommées (NER). Récemment, le modèle Transformer est de plus en plus adopté dans diverses tâches de traitement du langage naturel (NLP) grâce à sa capacité de parallélisation et à ses performances avantageuses. Toutefois, les performances du Transformer dans la tâche de NER ne sont pas aussi satisfaisantes qu’elles le sont dans d’autres tâches NLP. Dans cet article, nous proposons TENER, une architecture de NER qui utilise un encodeur Transformer adapté afin de modéliser à la fois les caractéristiques au niveau des caractères et celles au niveau des mots. En intégrant une attention sensible à la direction et à la distance relative, ainsi qu’une attention non normalisée, nous démontrons que l’encodeur de type Transformer est tout aussi efficace pour la tâche de NER que pour les autres tâches NLP.