SLK-NER : Exploiter les connaissances lexicales du second ordre pour la reconnaissance d'entités nommées en chinois

Bien que les modèles basés sur les caractères intégrant des lexiques aient obtenu des résultats prometteurs pour la tâche de reconnaissance d’entités nommées (NER) en chinois, certains mots lexicaux peuvent introduire des informations erronées en raison de correspondances incorrectes. Les recherches existantes ont proposé diverses stratégies pour intégrer les connaissances lexicales. Toutefois, celles-ci se sont appuyées principalement sur des connaissances lexicales du premier ordre, offrant une information mot insuffisante et continuant à souffrir du problème de conflits de bornes des mots correspondus ; ou encore elles ont exploré les connaissances lexicales à l’aide de graphes, où l’introduction d’informations d’ordre supérieur, incluant des mots négatifs, pouvait perturber l’identification. Pour atténuer ces limitations, nous proposons une nouvelle perspective sur les connaissances lexicales du second ordre (SLK, Second-Order Lexicon Knowledge) associées à chaque caractère d’une phrase, afin de fournir une information lexique plus riche, incluant des caractéristiques sémantiques et des informations sur les bornes des mots. À partir de ces fondements, nous proposons un modèle basé sur la SLK, intégrant une stratégie novatrice pour exploiter ces connaissances lexicales. Ce modèle peut tirer parti d’une information plus discriminante sur les mots lexicaux grâce au contexte global. Les résultats expérimentaux sur trois jeux de données publics démontrent la validité de la SLK. Le modèle proposé atteint des performances supérieures à celles des méthodes de pointe actuelles.