HyperAIHyperAI

Command Palette

Search for a command to run...

Apprentissage d’un détecteur d’entités nommées unifié à partir de multiples corpus partiellement annotés pour une adaptation efficace

Xiao Huang Li Dong Elizabeth Boschee Nanyun Peng

Résumé

La reconnaissance d'entités nommées (NER) consiste à identifier dans un texte brut des mentions d'entités typées. Bien que cette tâche soit bien établie, il n'existe pas de jeu d'étiquettes universellement adopté : les jeux de données sont souvent annotés pour des applications spécifiques en aval, et couvrent ainsi uniquement un petit ensemble de types d'entités pertinents pour une tâche donnée. Par exemple, dans le domaine biomédical, un corpus peut être annoté pour les gènes, un autre pour les composés chimiques, et un troisième pour les maladies — même si les textes de chacun de ces corpus contiennent des références aux trois types d'entités. Dans cet article, nous proposons un modèle structuré profond afin d'intégrer ces jeux de données « partiellement annotés » afin d'identifier conjointement tous les types d'entités présents dans les corpus d'entraînement. En exploitant plusieurs jeux de données, le modèle peut apprendre des représentations d'entrée robustes ; en construisant un modèle structuré conjoint, il évite les conflits potentiels qui surviennent lorsqu'on combine les prédictions de plusieurs modèles au moment du test. Les expériences montrent que le modèle proposé dépasse significativement les meilleures approches d'apprentissage multi-tâches lorsqu'il est entraîné sur plusieurs jeux de données partiellement annotés et évalué sur des jeux de données contenant des étiquettes provenant de plus d'un corpus d'entraînement.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp