il y a 17 jours

Apprentissage d’un détecteur d’entités nommées unifié à partir de multiples corpus partiellement annotés pour une adaptation efficace

Xiao Huang, Li Dong, Elizabeth Boschee, Nanyun Peng

Résumé

La reconnaissance d'entités nommées (NER) consiste à identifier dans un texte brut des mentions d'entités typées. Bien que cette tâche soit bien établie, il n'existe pas de jeu d'étiquettes universellement adopté : les jeux de données sont souvent annotés pour des applications spécifiques en aval, et couvrent ainsi uniquement un petit ensemble de types d'entités pertinents pour une tâche donnée. Par exemple, dans le domaine biomédical, un corpus peut être annoté pour les gènes, un autre pour les composés chimiques, et un troisième pour les maladies — même si les textes de chacun de ces corpus contiennent des références aux trois types d'entités. Dans cet article, nous proposons un modèle structuré profond afin d'intégrer ces jeux de données « partiellement annotés » afin d'identifier conjointement tous les types d'entités présents dans les corpus d'entraînement. En exploitant plusieurs jeux de données, le modèle peut apprendre des représentations d'entrée robustes ; en construisant un modèle structuré conjoint, il évite les conflits potentiels qui surviennent lorsqu'on combine les prédictions de plusieurs modèles au moment du test. Les expériences montrent que le modèle proposé dépasse significativement les meilleures approches d'apprentissage multi-tâches lorsqu'il est entraîné sur plusieurs jeux de données partiellement annotés et évalué sur des jeux de données contenant des étiquettes provenant de plus d'un corpus d'entraînement.