17일 전

FQuAD: 프랑스어 질문 응답 데이터셋

Martin d&#39, Hoffschmidt, Wacim Belblidia, Tom Brendlé, Quentin Heinrich, Maxime Vidal
FQuAD: 프랑스어 질문 응답 데이터셋
초록

최근 자연어 처리 분야의 언어 모델링 기술 발전으로 인해 여러 자연어 처리 과제에서 최신 성과가 크게 향상되었다. 그 중에서도 독해 이해(Reading Comprehension)는 지난 몇 년 간 큰 진전을 이루었다. 그러나 현재까지 대부분의 연구 결과는 영어로 보고되고 있으며, 프랑스어와 같은 다른 언어에 대한 레이블링된 자료는 여전히 부족한 실정이다. 본 연구에서는 프랑스어 독해 이해 데이터셋인 FQuAD(French Question Answering Dataset)를 제안한다. FQuAD는 위키백과 기사들을 대상으로 한 프랑스어 질문과 답변으로 구성된 원어민 수준의 독해 이해 데이터셋으로, 1.0 버전은 25,000개 이상, 1.1 버전은 60,000개 이상의 샘플을 포함하고 있다. 우리는 기준 모델을 학습하여 테스트 세트에서 F1 스코어 92.2, 정확 일치율(exact match ratio) 82.1을 달성하였다. 프랑스어 질문-답변 모델의 성능 향상을 지속적으로 추적할 수 있도록 리더보드를 제안하였으며, 데이터셋 1.0 버전은 https://illuin-tech.github.io/FQuAD-explorer/에서 무료로 제공하고 있다.

FQuAD: 프랑스어 질문 응답 데이터셋 | 최신 연구 논문 | HyperAI초신경