Amélioration de l'extraction de relations par pré-entraînement induit par la syntaxe avec masquage des dépendances

L’extraction de relations (RE) est une tâche fondamentale en traitement du langage naturel qui consiste à prédire la relation entre deux entités données, pour laquelle une bonne compréhension de l’information contextuelle est essentielle afin d’obtenir des performances optimales. Parmi les différents types d’information contextuelle, l’information syntaxique générée automatiquement (notamment les dépendances entre mots) s’est avérée particulièrement efficace pour cette tâche. Toutefois, la plupart des études existantes nécessitent des modifications des architectures de base (par exemple, l’ajout de nouveaux composants, tels que des réseaux de graphes convolutifs, GCN, au-dessus d’un encodeur) afin d’exploiter cette information syntaxique. Pour proposer une solution alternative, nous proposons d’améliorer l’extraction de relations en exploitant l’information syntaxique par l’entraînement d’un encodeur induit par la syntaxe sur des données automatiquement analysées via un masquage des dépendances. Plus précisément, cet encodeur induit par la syntaxe est entraîné à reconstruire les connexions et les types de dépendances masqués aux ordres premier, second et troisième, ce qui diffère fortement des approches existantes qui entraînent des modèles linguistiques ou des embeddings de mots en prédisant les mots contextuels le long des chemins de dépendance. Les résultats expérimentaux sur deux jeux de données standard en anglais, à savoir ACE2005EN et SemEval 2010 Task 8, démontrent l’efficacité de notre approche pour l’extraction de relations, où celle-ci surpasser des modèles de référence robustes et atteint des résultats de pointe sur les deux jeux de données.