L'attention positionnelle et les données supervisées améliorent le remplissage de slots

Les connaissances relationnelles organisées sous la forme de « graphes de connaissances » sont essentielles pour de nombreuses applications. Toutefois, la capacité à remplir automatiquement les bases de connaissances avec des faits extraits de documents reste extrêmement lente. Ce papier aborde simultanément deux problèmes qui ont limité les travaux antérieurs. Nous proposons tout d’abord un nouveau modèle efficace, combinant un modèle séquentiel LSTM avec une attention sensible à la position des entités, mieux adaptée à la tâche d’extraction de relations. Ensuite, nous construisons TACRED, un grand jeu de données supervisé (119 474 exemples) d’extraction de relations obtenu par crowdsourcing et spécifiquement conçu pour les relations du TAC KBP. La combinaison d’un jeu de données supervisé amélioré et d’un modèle à haute capacité plus adapté permet une performance nettement supérieure en extraction de relations. Lorsque le modèle entraîné sur ce nouveau jeu de données remplace le composant d’extraction de relations du meilleur système TAC KBP 2015 pour le remplissage de slots, son score F1 augmente significativement, passant de 22,2 % à 26,7 %.