Reconnaissance robuste d'entités nommées avec un pré-entraînement au truecasing

Bien que les systèmes modernes de reconnaissance d'entités nommées (NER) affichent des performances remarquables sur des jeux de données standards, leurs performances s'effondrent lorsqu'ils sont confrontés à des données bruitées. En particulier, la capitalisation constitue un signal puissant pour l'identification des entités dans de nombreuses langues, et même les modèles les plus avancés s'overfittent à cette caractéristique, conduisant à une baisse drastique de leur performance sur du texte non capitalisé. Dans ce travail, nous abordons le problème de la robustesse des systèmes NER face à des données présentant une mise en majuscule bruitée ou incertaine, en proposant une stratégie de pré-entraînement visant à prédire la capitalisation dans le texte, ou « truecaser », en exploitant des données non étiquetées. Le truecaser pré-entraîné est intégré à un modèle standard BiLSTM-CRF pour la NER en ajoutant les distributions de sortie aux embeddings de caractères. Sur plusieurs jeux de données couvrant des domaines et des niveaux de qualité de capitalisation variés, nous démontrons que notre nouveau modèle améliore significativement les performances sur du texte non capitalisé, y compris en apportant une valeur ajoutée aux embeddings BERT non capitalisés. Notre méthode atteint un nouveau record sur le jeu de données de la tâche partagée WNUT17.