Falcon 2.0 : Un outil de liaison d'entités et de relations sur Wikidata

La communauté du traitement du langage naturel (NLP) a apporté des contributions significatives aux solutions de reconnaissance d'entités et de relations à partir du texte, ainsi qu'à leur éventuel lien avec des correspondances appropriées dans les graphes de connaissances (Knowledge Graphs, KG). En considérant Wikidata comme graphe de connaissances de fond, des outils limités existent encore pour lier les connaissances présentes dans le texte à Wikidata. Dans cet article, nous présentons Falcon 2.0, le premier outil conjoint de liaison d'entités et de relations sur Wikidata. Il prend en entrée un court texte en langue anglaise et produit une liste classée d'entités et de relations, annotées avec les candidats correspondants dans Wikidata. Ces candidats sont représentés par leurs Identifiants de Ressource Internationalisés (IRI) dans Wikidata. Falcon 2.0 s'appuie sur un modèle linguistique en anglais pour la tâche de reconnaissance (par exemple, tiling et découpage de N-grammes), puis adopte une approche d'optimisation pour la tâche de liaison. Nous avons étudié empiriquement les performances de Falcon 2.0 sur Wikidata et conclu qu'il surpassait tous les modèles de référence existants. Falcon 2.0 est un outil public, réutilisable par la communauté ; toutes les instructions nécessaires sont soigneusement documentées sur notre dépôt GitHub. Nous présentons également une API en ligne, pouvant être utilisée sans aucune expertise technique. Falcon 2.0 et ses bases de connaissances associées sont disponibles en tant que ressources à l'adresse suivante : https://labs.tib.eu/falcon/falcon2/.