SYGMA : Système pour une réponse à des questions modulaires généralisables sur des bases de connaissances

Les tâches de question-réponse fondées sur une base de connaissances (KBQA) impliquant un raisonnement complexe émergent comme une direction de recherche importante. Toutefois, la plupart des systèmes KBQA peinent à généraliser, en particulier sur deux dimensions : (a) à travers différents types de raisonnement, où les jeux de données et les systèmes se sont principalement concentrés sur le raisonnement multi-étapes, et (b) à travers plusieurs bases de connaissances, où les approches KBQA sont spécifiquement ajustées à une seule base de connaissances. Dans cet article, nous présentons SYGMA, une approche modulaire visant à améliorer la généralisation à la fois sur plusieurs bases de connaissances et sur plusieurs types de raisonnement. Plus précisément, SYGMA comporte trois modules de haut niveau : 1) un module d’interprétation des questions indépendant de la base de connaissances, commun à toutes les bases ; 2) des règles permettant de soutenir des types de raisonnement supplémentaires ; 3) un module de cartographie et de réponse aux questions spécifique à chaque base de connaissances, chargé de traiter les aspects propres à chaque base lors de l’extraction de la réponse. Nous démontrons l’efficacité de notre système en l’évaluant sur des jeux de données provenant de deux bases de connaissances distinctes, DBpedia et Wikidata. En outre, afin de montrer l’extensibilité à des types de raisonnement supplémentaires, nous évaluons sur des jeux de données de raisonnement multi-étapes ainsi que sur un nouveau benchmark KBQA temporel sur Wikidata, baptisé TempQA-WD1, introduit dans cet article. Nous démontrons que notre approche généralisable obtient des performances compétitives supérieures sur plusieurs jeux de données issus de DBpedia et Wikidata, nécessitant à la fois du raisonnement multi-étapes et du raisonnement temporel.