Vers une amélioration de la reconnaissance nommée par les réseaux neuronaux grâce aux gazetteers

La plupart des modèles neuronaux récemment proposés pour la reconnaissance d'entités nommées sont purement pilotés par les données, avec une forte accentuation sur l'élimination des efforts nécessaires à la collecte de ressources externes ou à la conception de caractéristiques manuelles. Cela augmente le risque de surajustement, car les modèles ne peuvent pas accéder à d'autres signaux de supervision en dehors de la faible quantité de données annotées, ce qui limite leur capacité à généraliser au-delà des entités annotées. Dans ce travail, nous montrons qu'une utilisation appropriée de gazetteers externes peut bénéficier aux modèles neuronaux segmentaux pour la reconnaissance d'entités nommées. Nous intégrons un module simple à l'architecture hybride semi-Markovienne CRF récemment proposée et observons des résultats prometteurs.