Une amélioration de la base pour l'extraction de relations au niveau des phrases

L'extraction de relations au niveau de la phrase (RE) vise à identifier la relation entre deux entités au sein d'une phrase. De nombreux efforts ont été consacrés à ce problème, mais les méthodes les plus performantes restent encore loin d'être parfaites. Dans cet article, nous reprenons deux problèmes qui affectent les performances des modèles RE existants : la représentation des entités et les étiquettes bruitées ou mal définies. Notre nouvelle base améliorée, intégrant des représentations d'entités avec des marqueurs typés, atteint un F1 de 74,6 % sur TACRED, surpassant significativement les méthodes SOTA précédentes. En outre, la nouvelle base proposée atteint un F1 de 91,1 % sur le jeu de données révisé Re-TACRED, démontrant que les modèles de langage préentraînés (PLMs) peuvent atteindre de très hauts niveaux de performance sur cette tâche. Nous mettons notre code à disposition de la communauté pour favoriser les recherches futures.