11일 전
FrenchMedMCQA: 의료 분야를 위한 프랑스어 다중 선택형 질문 답변 데이터셋
Yanis Labrak, Adrien Bazoge, Richard Dufour, Mickael Rouvier, Emmanuel Morin, Béatrice Daille, Pierre-Antoine Gourraud

초록
이 논문은 프랑스 약학 전문의 자격 시험의 실제 시험 문제에서 수집한 3,105개의 질문을 기반으로 구성된, 의학 분야를 대상으로 한 프랑스어로 된 다중 선택형 질문-답변(MCQA) 데이터셋인 FrenchMedMCQA를 소개한다. 이 데이터셋은 단일 정답과 다중 정답을 혼합하여 구성되어 있으며, 각 인스턴스는 식별자, 질문, 다섯 가지 후보 답변 및 수동으로 이루어진 정답 정보를 포함한다. 또한 본 MCQA 작업을 자동으로 처리할 수 있는 최초의 베이스라인 모델을 제안하여 현재의 성능 수준을 분석하고, 이 작업의 난이도를 부각시키고자 하였다. 결과 분석을 통해 의학 분야 또는 MCQA 작업에 특화된 표현 방식이 필요함을 확인할 수 있었다. 본 연구에서는 프랑스어 전용 모델보다 영문 전문 모델이 더 뛰어난 성능을 보였으며, 이는 FrenchMedMCQA가 프랑스어로 작성되었음에도 불구하고 의미 있는 결과이다. 본 연구의 어휘자료, 모델 및 도구는 모두 온라인에서 공개되어 있다.