17일 전
JaQuAD: 기계 독해 이해를 위한 일본어 질문 응답 데이터셋
ByungHoon So, Kyuhong Byun, Kyungwon Kang, Seongjin Cho

초록
질문 응답(Question Answering, QA)은 주어진 문서와 질문을 이해하고 이를 바탕으로 정답을 찾는 작업이다. 자연어 처리(NLP) 분야에서 놀라운 진전이 있었음에도 불구하고, QA는 여전히 도전적인 문제로 남아 있으며, 특히 영어 외 언어에 대해서는 주석이 달린 데이터셋의 부족으로 인해 더욱 어려움을 겪고 있다. 본 논문에서는 인간에 의해 주석이 달린 일본어 질문 응답 데이터셋인 JaQuAD를 제안한다. JaQuAD는 일본어 위키백과 문서에 기반한 39,696개의 추출형 질문-정답 쌍으로 구성되어 있다. 우리는 기준 모델을 미세조정(fine-tuned)하여 테스트 세트에서 F1 점수 78.92%, EM(Exact Match) 점수 63.38%를 달성하였다. 본 데이터셋 및 실험 결과는 https://github.com/SkelterLabsInc/JaQuAD 에서 공개되어 있다.