HyperAIHyperAI

Command Palette

Search for a command to run...

Amélioration des performances de liaison d'entités en exploitant les documents non étiquetés

Phong Le; Ivan Titov

Résumé

Les systèmes modernes de liaison d'entités s'appuient sur de grandes collections de documents spécifiquement annotés pour cette tâche (par exemple, AIDA CoNLL). En revanche, nous proposons une approche qui exploite uniquement des informations naturellement présentes : des documents non étiquetés et Wikipédia. Notre approche se compose de deux étapes. Premièrement, nous construisons une liste à forte rappel de candidats entités pour chaque mention dans un document non étiqueté. Deuxièmement, nous utilisons ces listes de candidats comme supervision faible pour contraindre notre modèle de liaison d'entités au niveau du document. Le modèle traite les entités comme des variables latentes et, lorsqu'il est estimé sur une collection de textes non étiquetés, apprend à choisir les entités en s'appuyant à la fois sur le contexte local de chaque mention et sur la cohérence avec les autres entités du document. L'approche résultante rivalise avec les systèmes d'avant-garde entièrement supervisés sur des ensembles de tests standard. Elle approche également leurs performances dans un cadre très exigeant : lorsque testée sur un ensemble de tests tiré des données utilisées pour estimer les systèmes supervisés. En comparant notre modèle formé uniquement avec Wikipédia, nous démontrons que la modélisation des documents non étiquetés est bénéfique.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp