HyperAIHyperAI

Command Palette

Search for a command to run...

QALD-9-plus:ネイティブ・スピーカーによる翻訳を経た、DBpediaおよびWikidata上の質問応答のための多言語データセット

Aleksandr Perevalov Dennis Diefenbach Ricardo Usbeck Andreas Both

概要

Webベースのシステムにおける、異なるユーザーグループに対して同一の体験を提供できる(すなわちアクセシビリティを確保できる)能力は、最も重要な特徴の一つである。この点は、自然言語インターフェースを通じてセマンティックウェブデータへのアクセスを提供する知識グラフ質問応答(KGQA)システムに対しても同様に当てはまる。KGQAシステムの多言語アクセシビリティに関する我々の研究計画を進める中で、いくつかの継続的な課題を明らかにした。その一つとして挙げられるのは、多言語KGQAベンチマークの不足である。本研究では、最も広く利用されているKGQAベンチマークの一つであるQALD-9を拡張し、ネイティブスピーカーによって高品質に翻訳された8言語分の質問を追加した。また、QALD-9のSPARQLクエリをDBpediaからWikidataに移行することで、データセットの利用可能性および関連性を大幅に向上させた。特に、アルメニア語、ウクライナ語、リトアニア語、バシルキル語、ベラルーシ語の5言語については、本研究までにKGQA研究コミュニティで一度も取り上げられた例がなかった。さらに、後者の2言語(バシルキル語およびベラルーシ語)は、ユネスコによって「絶滅危惧言語(endangered)」に分類されている。本研究で拡張したデータセットを「QALD-9-plus」と命名し、オンラインで公開した(https://github.com/Perevalov/qald_9_plus)


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
QALD-9-plus:ネイティブ・スピーカーによる翻訳を経た、DBpediaおよびWikidata上の質問応答のための多言語データセット | 記事 | HyperAI超神経