11日前

QALD-9-plus:ネイティブ・スピーカーによる翻訳を経た、DBpediaおよびWikidata上の質問応答のための多言語データセット

Aleksandr Perevalov, Dennis Diefenbach, Ricardo Usbeck, Andreas Both
QALD-9-plus:ネイティブ・スピーカーによる翻訳を経た、DBpediaおよびWikidata上の質問応答のための多言語データセット
要約

Webベースのシステムにおける、異なるユーザーグループに対して同一の体験を提供できる(すなわちアクセシビリティを確保できる)能力は、最も重要な特徴の一つである。この点は、自然言語インターフェースを通じてセマンティックウェブデータへのアクセスを提供する知識グラフ質問応答(KGQA)システムに対しても同様に当てはまる。KGQAシステムの多言語アクセシビリティに関する我々の研究計画を進める中で、いくつかの継続的な課題を明らかにした。その一つとして挙げられるのは、多言語KGQAベンチマークの不足である。本研究では、最も広く利用されているKGQAベンチマークの一つであるQALD-9を拡張し、ネイティブスピーカーによって高品質に翻訳された8言語分の質問を追加した。また、QALD-9のSPARQLクエリをDBpediaからWikidataに移行することで、データセットの利用可能性および関連性を大幅に向上させた。特に、アルメニア語、ウクライナ語、リトアニア語、バシルキル語、ベラルーシ語の5言語については、本研究までにKGQA研究コミュニティで一度も取り上げられた例がなかった。さらに、後者の2言語(バシルキル語およびベラルーシ語)は、ユネスコによって「絶滅危惧言語(endangered)」に分類されている。本研究で拡張したデータセットを「QALD-9-plus」と命名し、オンラインで公開した(https://github.com/Perevalov/qald_9_plus)。

QALD-9-plus:ネイティブ・スピーカーによる翻訳を経た、DBpediaおよびWikidata上の質問応答のための多言語データセット | 最新論文 | HyperAI超神経