QALD-9-plus: Ein mehrsprachiger Datensatz für die Fragebeantwortung über DBpedia und Wikidata, übersetzt von Muttersprachlern

Die Fähigkeit, unterschiedlichen Benutzergruppen dieselbe Erfahrung zu ermöglichen (d. h. Barrierefreiheit), ist eine der wichtigsten Eigenschaften webbasierter Systeme. Dies gilt ebenso für Knowledge-Graph-Frage-Antwort-Systeme (KGQA), die den Zugriff auf Semantic-Web-Daten über eine natürlichsprachliche Schnittstelle ermöglichen. Während wir unserer Forschungsagenda zur mehrsprachigen Barrierefreiheit von KGQA-Systemen folgten, identifizierten wir mehrere bestehende Herausforderungen. Eine davon ist das Fehlen mehrsprachiger Benchmark-Datasets für KGQA. In dieser Arbeit erweitern wir einen der beliebtesten KGQA-Benchmarks, QALD-9, indem wir hochwertige Übersetzungen der Fragen in acht Sprachen durch Muttersprachler*innen bereitstellen und die SPARQL-Abfragen von QALD-9 von DBpedia auf Wikidata übertragen, wodurch die Nutzbarkeit und Relevanz des Datensatzes erheblich gesteigert wird. Fünf der Sprachen – Armenisch, Ukrainisch, Litauisch, Baschkirisch und Weißrussisch – waren, soweit uns bekannt, bisher in der KGQA-Forschungsgemeinschaft nicht untersucht worden. Die beiden letzten Sprachen gelten gemäß UNESCO als „bedroht“. Wir bezeichnen den erweiterten Datensatz als QALD-9-plus und stellen ihn online zur Verfügung unter https://github.com/Perevalov/qald_9_plus.