Apprentissage par transfert adversaire pour la reconnaissance des entités nommées chinoises avec un mécanisme d'attention self-attention

La reconnaissance d'entités nommées (NER) est une tâche fondamentale en traitement du langage naturel, qui consiste à déterminer les limites des entités et à les classer dans des catégories prédéfinies. Pour la tâche de NER en chinois, seule une quantité très limitée de données annotées est disponible. La tâche de NER chinois et celle de la segmentation des mots chinois (CWS) partagent de nombreuses similitudes en ce qui concerne les limites des mots. Toutefois, chacune de ces tâches présente également des spécificités propres. Les méthodes existantes pour le NER chinois ne tirent pas pleinement parti des informations de limites des mots issues de la CWS, ou bien elles ne parviennent pas à filtrer les caractéristiques spécifiques à la CWS. Dans cet article, nous proposons un nouveau cadre d'apprentissage par transfert adversarial afin d'exploiter pleinement les informations partagées sur les limites des entités entre les tâches, tout en empêchant l'influence des caractéristiques spécifiques à la CWS. En outre, puisque les caractères individuels peuvent fournir des indices importants lors de la prédiction du type d'entité, nous utilisons une attention auto-associative pour capturer explicitement les dépendances à longue portée entre deux jetons. Les résultats expérimentaux sur deux jeux de données largement utilisés montrent que notre modèle proposé surpasse de manière significative et cohérente les méthodes de pointe existantes.