DocRED : Un grand ensemble de données pour l’extraction de relations au niveau du document

Plusieurs entités dans un document présentent généralement des relations interphrastiques complexes et ne peuvent pas être bien traitées par les méthodes actuelles d'extraction de relations (RE), qui se concentrent généralement sur l'extraction de relations intraphrastiques pour des paires d'entités individuelles. Afin d'accélérer la recherche en RE au niveau du document, nous introduisons DocRED, un nouveau jeu de données construit à partir de Wikipedia et Wikidata avec trois caractéristiques : (1) DocRED annotate à la fois les entités nommées et leurs relations, et constitue le plus grand jeu de données annoté manuellement pour l'extraction de relations au niveau du document à partir de texte brut ; (2) DocRED nécessite la lecture de plusieurs phrases dans un document pour extraire les entités et inférer leurs relations en synthétisant toutes les informations du document ; (3) outre les données annotées manuellement, nous proposons également des données supervisées à grande échelle, ce qui permet d'utiliser DocRED dans des scénarios supervisés et faiblement supervisés. Pour vérifier les défis posés par l'extraction de relations au niveau du document, nous avons mis en œuvre des méthodes récentes et de pointe en RE et effectué une évaluation approfondie de ces méthodes sur DocRED. Les résultats empiriques montrent que DocRED est difficile pour les méthodes actuelles d'extraction de relations, ce qui indique que l'extraction de relations au niveau du document reste un problème ouvert nécessitant des efforts supplémentaires. Sur la base d'une analyse détaillée des expériences, nous discutons de multiples orientations prometteuses pour la recherche future.