17일 전

저자원 언어에서 질문-답변 모델 개발: Transformer 기반 접근법을 활용한 터키어 의료 텍스트 사례 연구

{Murat Aydogan, Mert Incidelen}
초록

본 연구에서는 터키어(저자원 언어)에서 질문-답변(QA) 작업을 수행하기 위해 의료 텍스트를 활용하여 트랜스포머 기반 사전 훈련 언어 모델을 미세 조정하였다. 대규모 터키어 코퍼스를 기반으로 생성된 BERTurk 사전 훈련 언어 모델의 다양한 변형이 QA 작업에 사용되었다. 본 연구는 터키 고등교육위원회의 학위논문센터에 소재한 의료 학위논문과 터키 위키백과를 기반으로 구성한 터키어 의료 QA 데이터셋을 제시한다. 이 데이터셋은 총 8,200개의 질문-답변 쌍을 포함하고 있으며, BERTurk 모델의 미세 조정에 활용되었다. 모델 성능은 정확 일치(Exact Match, EM) 및 F1 스코어를 기준으로 평가되었다. BERTurk (대문자 처리, 32k) 모델은 EM 51.097, F1 스코어 74.148을 달성하였으며, BERTurk (대문자 처리, 128k) 모델은 EM 55.121, F1 스코어 77.187을 기록하였다. 결과는 사전 훈련 언어 모델이 터키어와 같은 저자원 언어에서 질문-답변 작업에 성공적으로 활용될 수 있음을 보여준다. 본 연구는 터키어 의료 텍스트 처리 및 자동 질문-답변 작업 분야에 중요한 기반을 마련하였으며, 향후 관련 연구에 대한 통찰을 제공한다.