
要約
質問応答(QA)とは、与えられた文書と質問を理解し、その中から答えを抽出するタスクである。自然言語処理(NLP)分野において著しい進展が見られても、特に英語以外の言語ではアノテーション付きデータセットの不足により、QAは依然として困難な課題である。本論文では、人間によるアノテーションが施された日本語質問応答データセット「JaQuAD」を紹介する。JaQuADは、日本語ウィキペディア記事を対象に、抽出型の質問-回答ペアを39,696件収録している。我々はベースラインモデルを微調整し、テストセットにおいてF1スコア78.92%、EMスコア63.38%を達成した。データセットおよび実験結果は、https://github.com/SkelterLabsInc/JaQuAD にて公開されている。