Modèle linguistique pré-entraîné multi-tâches pour la complétion du réseau sémantique

Les réseaux sémantiques, tels que les graphes de connaissances, permettent de représenter les connaissances grâce à une structure de graphe. Bien que les graphes de connaissances montrent un potentiel prometteur dans le traitement du langage naturel, ils souffrent d’une incomplétude importante. Ce papier se concentre sur la complétion des graphes de connaissances par la prédiction des liens entre entités, une tâche fondamentale mais cruciale. La correspondance sémantique apparaît comme une solution prometteuse, car elle permet de traiter des entités inconnues, un point faible des méthodes basées sur la distance de translation. Toutefois, pour atteindre des performances compétitives par rapport aux méthodes fondées sur la distance de translation, les approches basées sur la correspondance sémantique nécessitent des jeux de données à grande échelle pour l’entraînement, souvent indisponibles dans les contextes réels. Ainsi, nous exploitons un modèle linguistique et proposons une nouvelle architecture de graphe de connaissances nommée LP-BERT, comprenant deux étapes principales : un pré-entraînement multi-tâches et une fine-tuning du graphe de connaissances. Lors de la phase de pré-entraînement, trois tâches sont définies afin de guider le modèle à apprendre les relations à partir de triples en prédisant soit des entités, soit des relations. Pendant la phase de fine-tuning, inspirés par l’apprentissage par contraste, nous concevons un échantillonnage négatif de type triple au sein d’un lot, ce qui permet d’augmenter considérablement la proportion d’échantillons négatifs tout en maintenant presque inchangé le temps d’entraînement. Par ailleurs, nous proposons une nouvelle méthode d’augmentation de données exploitant la relation inverse des triples afin d’améliorer les performances et la robustesse du modèle. Pour démontrer l’efficacité de notre approche, nous menons des expériences approfondies sur trois jeux de données largement utilisés : WN18RR, FB15k-237 et UMLS. Les résultats expérimentaux confirment l’avantage de notre méthode, et notre approche atteint des résultats de pointe sur les jeux de données WN18RR et FB15k-237. Notamment, l’indicateur Hits@10 est amélioré de 5 % par rapport au résultat précédent de l’état de l’art sur le jeu de données WN18RR, tout en atteignant 100 % sur le jeu de données UMLS.