11일 전
QALD-9-plus: DBpedia 및 Wikidata에 대한 질문 응답을 위한 다국어 데이터셋 (현지어로 번역됨)
Aleksandr Perevalov, Dennis Diefenbach, Ricardo Usbeck, Andreas Both

초록
다양한 사용자 집단에 대해 동일한 경험을 제공할 수 있는 능력(즉, 접근성)은 웹 기반 시스템에서 가장 중요한 특성 중 하나이다. 자연어 인터페이스를 통해 의미 웹 데이터에 접근할 수 있도록 제공하는 지식 그래프 질의 응답(KGQA) 시스템의 경우에도 마찬가지이다. KGQA 시스템의 다국어 접근성에 대한 연구 과제를 추진하면서, 몇 가지 지속적인 도전 과제를 확인하였다. 그 중 하나는 다국어 KGQA 벤치마크의 부족이다. 본 연구에서는 가장 인기 있는 KGQA 벤치마크 중 하나인 QALD-9를 확장하여, 원어민이 제공한 8개 언어로의 고품질 질문 번역을 도입하고, QALD-9의 SPARQL 쿼리를 DBpedia에서 Wikidata로 이전함으로써 데이터셋의 활용 가능성과 관련성을 크게 향상시켰다. 특히 아르메니아어, 우크라이나어, 리투아니아어, 바스키르어, 벨라루스어의 다섯 가지 언어는 우리 지식에 따르면 이전에 KGQA 연구 공동체에서 전혀 고려된 바가 없었다. 특히 벨라루스어와 바스키르어는 유네스코에서 '멸종 위기 언어'로 분류하고 있다. 본 연구에서 확장된 데이터셋을 'QALD-9-plus'라고 명명하였으며, 온라인으로 공개하였다. https://github.com/Perevalov/qald_9_plus