TDEER : Un schéma de décodage efficace par traduction pour l'extraction conjointe d'entités et de relations

L’extraction conjointe d’entités et de relations à partir de textes non structurés afin de former des triplets factuels constitue une tâche fondamentale dans la construction d’une base de connaissances (KB). Une méthode courante consiste à décoder les triplets en prédire des paires d’entités afin d’obtenir la relation correspondante. Toutefois, cette tâche reste difficile à traiter de manière efficace, en particulier en ce qui concerne le problème des triplets chevauchants. Pour résoudre ce problème, cet article propose un nouveau modèle efficace d’extraction d’entités et de relations, nommé TDEER, qui signifie Translating Decoding Schema for Joint Extraction of Entities and Relations. Contrairement aux approches classiques, le schéma de décodage par translation considère la relation comme une opération de translation du sujet vers l’objet, c’est-à-dire que TDEER décode les triplets sous la forme : sujet + relation → objet. Ce schéma permet naturellement de gérer le problème des triplets chevauchants, car il est capable de reconnaître tous les triplets possibles, qu’ils soient chevauchants ou non. Pour renforcer la robustesse du modèle, nous introduisons des échantillons négatifs afin de réduire l’accumulation d’erreurs aux différentes étapes du processus. Des expériences étendues sur des jeux de données publics montrent que TDEER atteint des résultats compétitifs par rapport aux modèles de l’état de l’art (SOTA). En outre, l’analyse de la complexité computationnelle indique que TDEER est plus efficace que les modèles puissants de référence. En particulier, le modèle TDEER est deux fois plus rapide que les modèles SOTA récents. Le code est disponible à l’adresse suivante : https://github.com/4AI/TDEER.