Typage d'entités ultra-fin avec une supervision faible issue d'un modèle de langage masqué

Récemment, des efforts ont été déployés pour étendre le typage d'entités à très fine granularité en adoptant un ensemble plus riche et ultra-fine de types, en étiquetant non seulement les mentions d'entités nommées, mais également les groupes nominaux, y compris les pronoms et les noms nominaux. Un défi majeur posé par cette tâche de typage d'entités ultra-fine réside dans le fait que les données annotées manuellement sont extrêmement rares, et que les capacités d'annotation des approches existantes basées sur une supervision distante ou faible sont très limitées. Pour remédier à ce problème, nous proposons dans cet article d’obtenir des données d’entraînement pour le typage d’entités ultra-fine en exploitant un Modèle de Langage Masqué (MLM) basé sur BERT. Étant donné une mention dans une phrase, notre approche construit une entrée adaptée pour le MLM BERT afin qu’il prédise des hyperonymes dépendants du contexte de la mention, qui peuvent servir de libellés de type. Les résultats expérimentaux démontrent que, grâce à ces étiquettes générées automatiquement, la performance d’un modèle de typage d’entités ultra-fine peut être significativement améliorée. Nous montrons également que notre approche peut être appliquée pour améliorer le typage d’entités finement granulaires traditionnel après un simple mappage de types.