17日前
FQuAD:フランス語質問応答データセット
Martin d', Hoffschmidt, Wacim Belblidia, Tom Brendlé, Quentin Heinrich, Maxime Vidal

要約
自然言語処理(NLP)分野における言語モデルの最近の進展により、多くのタスクで最先端の成果が達成されつつある。その中でも、読解(Reading Comprehension)は過去数年間で顕著な進歩を遂げてきた。しかし、英語以外の言語、特にフランス語などにおいては、ラベル付きのリソースが依然として不足しているため、多くの研究結果は英語で報告されているにとどまっている。本研究では、フランス語読解を対象とした新しいデータセット「French Question Answering Dataset(FQuAD)」を提案する。FQuADは、Wikipedia記事を対象にしたフランス語ネイティブの読解データセットであり、1.0版では25,000件以上、1.1版では60,000件以上のサンプルを含む。我々はベースラインモデルを学習し、テストセットにおいてF1スコア92.2、正確一致率(exact match)82.1を達成した。フランス語読解モデルの進展を継続的に追跡できるよう、リーダーボードを提案し、FQuAD 1.0版のデータセットをhttps://illuin-tech.github.io/FQuAD-explorer/ にて無料で公開している。