HyperAIHyperAI
il y a 11 jours

QALD-9-plus : Un jeu de données multilingue pour la réponse aux questions sur DBpedia et Wikidata, traduit par des locuteurs natifs

Aleksandr Perevalov, Dennis Diefenbach, Ricardo Usbeck, Andreas Both
QALD-9-plus : Un jeu de données multilingue pour la réponse aux questions sur DBpedia et Wikidata, traduit par des locuteurs natifs
Résumé

La capacité à offrir une expérience identique à différents groupes d’utilisateurs (c’est-à-dire l’accessibilité) constitue l’une des caractéristiques les plus importantes des systèmes basés sur le Web. Ce principe s’applique également aux systèmes de question-réponse sur les graphes de connaissances (KGQA), qui permettent d’accéder aux données du Web sémantique via une interface en langage naturel. Alors que nous poursuivons notre programme de recherche sur l’accessibilité multilingue des systèmes KGQA, nous avons identifié plusieurs défis persistants. L’un d’eux réside dans le manque de benchmarks multilingues pour les systèmes KGQA. Dans ce travail, nous étendons l’un des benchmarks les plus populaires en la matière – QALD-9 – en ajoutant des traductions de haute qualité des questions dans huit langues, réalisées par des locuteurs natifs, et en transférant les requêtes SPARQL de QALD-9 de DBpedia vers Wikidata, ce qui renforce significativement la pertinence et l’utilisabilité de ce jeu de données. Cinq des langues concernées – arménien, ukrainien, lituanien, bassour et biélorusse – n’avaient, à notre connaissance, jamais été prises en compte auparavant au sein de la communauté de recherche sur les KGQA. Les deux dernières de ces langues sont classées comme « en danger » par l’UNESCO. Nous appelons ce jeu de données étendu QALD-9-plus et l’avons rendu disponible en ligne à l’adresse suivante : https://github.com/Perevalov/qald_9_plus.

QALD-9-plus : Un jeu de données multilingue pour la réponse aux questions sur DBpedia et Wikidata, traduit par des locuteurs natifs | Articles de recherche récents | HyperAI