11일 전

UQuAD1.0: 기계 독해 이해를 위한 우르두어 질문-응답 학습 데이터 개발

Samreen Kazi, Shakeel Khoja
UQuAD1.0: 기계 독해 이해를 위한 우르두어 질문-응답 학습 데이터 개발
초록

최근 몇 년간 저자원 기계독해(Machine Reading Comprehension, MRC) 분야는 다양한 언어 데이터셋에서 뛰어난 성능을 보이는 모델들이 등장하며 큰 발전을 이루었다. 그러나 이러한 모델들은 우르두어(Urdu) 언어에 맞춰 특화된 것은 없었다. 본 연구는 기계 번역을 통해 생성된 SQuAD 데이터셋과 위키백과 기사 및 캠브리지 O-level 교재의 우르두어 독해 워크시트에서 도출된 인간 생성 샘플을 결합함으로써, 우르두어 질문-답변 데이터셋(UQuAD1.0)을 반자동으로 구축하는 방식을 탐구한다. UQuAD1.0은 추출형 기계독해 작업을 위한 대규모 우르두어 데이터셋으로, 질문, 본문, 답변 형식의 총 49,000개의 질문-답변 쌍을 포함하고 있다. UQuAD1.0에서 생성된 45,000개의 QA 쌍은 원본 SQuAD1.0의 기계 번역을 통해, 약 4,000개의 QA 쌍은 커뮤니티 기반의 크라우드소싱 방식을 통해 확보되었다. 본 연구에서는 규칙 기반 기준 모델과 고급 트랜스포머 기반 모델 두 가지 유형의 MRC 모델을 사용하였으나, 후자가 상대적으로 뛰어난 성능을 보임을 확인하였으며, 따라서 후자의 트랜스포머 기반 아키텍처에 집중하기로 결정하였다. XLMRoBERTa와 다국어 BERT 모델을 활용한 실험에서 각각 F1 스코어 0.66과 0.63을 달성하였다.

UQuAD1.0: 기계 독해 이해를 위한 우르두어 질문-응답 학습 데이터 개발 | 최신 연구 논문 | HyperAI초신경