HyperAIHyperAI
il y a 17 jours

Bootleg : Traquer la queue avec une désambiguïsation nommée auto-supervisée

Laurel Orr, Megan Leszczynski, Simran Arora, Sen Wu, Neel Guha, Xiao Ling, Christopher Re
Bootleg : Traquer la queue avec une désambiguïsation nommée auto-supervisée
Résumé

Un défi majeur en désambiguïsation des entités nommées (NED), qui consiste à associer des mentions textuelles à des entités dans une base de connaissances, réside dans la capacité à désambiguïser des entités rares dans les données d'entraînement, appelées entités de queue (tail entities). Les êtres humains utilisent des schémas de raisonnement subtils fondés sur leurs connaissances concernant les faits, les relations et les types d'entités pour désambiguïser des entités inconnues. Inspirés par ces schémas, nous introduisons Bootleg, un système de NED auto-supervisé explicitement fondé sur des schémas de raisonnement pour la désambiguïsation. Nous définissons des schémas de raisonnement fondamentaux pour la désambiguïsation, concevons une procédure d'apprentissage visant à inciter le modèle auto-supervisé à acquérir ces schémas, et montrons comment utiliser une supervision faible pour renforcer les signaux présents dans les données d'entraînement. En intégrant ces schémas de raisonnement dans une architecture Transformer simple, Bootleg atteint ou dépasse l'état de l'art sur trois benchmarks de NED. Nous démontrons également que les représentations apprises par Bootleg se transmettent efficacement à d'autres tâches non liées à la désambiguïsation nécessitant une connaissance d'entités : nous établissons un nouveau record sur la tâche populaire d'extraction de relations TACRED, avec une amélioration de 1,0 point F1, et obtenons une augmentation de performance allant jusqu'à 8 % dans des tâches de recherche et d'assistant hautement optimisées en production chez une importante entreprise technologique.

Bootleg : Traquer la queue avec une désambiguïsation nommée auto-supervisée | Articles de recherche récents | HyperAI