SPOT : Représentations linguistiques améliorées par les connaissances pour l’extraction d’informations

Les modèles pré-entraînés améliorés par la connaissance pour la représentation du langage ont été démontrés comme étant plus efficaces dans les tâches de construction de bases de connaissances (par exemple, l'extraction de relations) que les modèles de langage tels que BERT. Ces modèles de langage enrichis en connaissance intègrent des informations lors de la pré-entraîne pour générer des représentations d'entités ou de relations. Cependant, les méthodes existantes représentent généralement chaque entité avec un plongement séparé (embedding). Par conséquent, ces méthodes peinent à représenter des entités hors vocabulaire et nécessitent une grande quantité de paramètres supplémentaires au-delà de leurs modèles sous-jacents de jetons (par exemple, le transformer), ce qui limite en pratique le nombre d'entités pouvant être traitées en raison des contraintes mémoire. De plus, les modèles actuels continuent à éprouver des difficultés pour représenter simultanément les entités et leurs relations. Pour remédier à ces problèmes, nous proposons un nouveau modèle pré-entraîné qui apprend des représentations d'entités et de relations à partir respectivement des segments de jetons et des paires de segments dans le texte. En codant efficacement les segments avec des modules spécifiques aux spans, notre modèle peut représenter à la fois les entités et leurs relations tout en nécessitant moins de paramètres que les modèles existants. Nous avons pré-entraîné notre modèle avec le graphe de connaissances extrait de Wikipedia et l'avons testé sur une large gamme de tâches d'extraction d'information supervisées et non supervisées. Les résultats montrent que notre modèle apprend des représentations meilleures pour les entités et les relations que celles obtenues par les modèles basiques, tandis qu'en configuration supervisée, l'affinage (fine-tuning) de notre modèle surpassera constamment RoBERTa et obtiendra des résultats compétitifs dans les tâches d'extraction d'information.Note: - "Span" est traduit par "segment" car c'est le terme couramment utilisé en français pour désigner une partie continue d'un texte.- "Fine-tuning" est traduit par "affinage" qui est un terme couramment utilisé dans le domaine du machine learning pour désigner cette étape.- "Out-of-vocabulary entities" est traduit par "entités hors vocabulaire", ce qui est une expression standard en traitement automatique du langage naturel (TALN).- Le nom propre "RoBERTa" a été conservé tel quel car il s'agit du nom d'un modèle spécifique.