Reconnaissance d'entités nommées dans les messages Twitter à l'aide d'un LSTM bidirectionnel

Dans cet article, nous présentons notre approche pour la reconnaissance d'entités nommées dans les messages Twitter, que nous avons utilisée dans le cadre de notre participation à la tâche partagée de reconnaissance d'entités nommées dans les messages Twitter organisée dans le cadre du atelier COLING 2016 sur les textes générés par les utilisateurs bruyants (WNUT). Le défi principal que nous cherchons à relever dans cette participation réside dans la nature brève, bruyante et familiale des tweets, ce qui rend la reconnaissance d'entités nommées dans ces messages une tâche particulièrement difficile. Plus précisément, nous explorons une méthode pour traiter ce problème en permettant aux réseaux de neurones à mémoire à long terme bidirectionnels (LSTM) d'apprendre automatiquement des caractéristiques orthographiques sans nécessiter d'ingénierie de caractéristiques. En comparaison avec les autres systèmes participant à la tâche partagée, notre système a obtenu les meilleurs résultats tant sur la sous-tâche de « segmentation et catégorisation » que sur la sous-tâche de « segmentation uniquement ».