摘要
本研究针对土耳其语这一低资源语言,采用基于Transformer的预训练语言模型,通过医学文本对模型进行微调,以实现问答(Question Answering, QA)任务。研究中使用了基于大规模土耳其语语料库构建的BERTurk预训练语言模型的不同变体进行QA任务。研究构建了一个医学土耳其语问答数据集,该数据集由土耳其维基百科内容及土耳其高等教育理事会论文中心收录的医学学位论文整理而成,共包含8200对问答样本,用于BERTurk模型的微调。模型性能通过精确匹配(Exact Match, EM)和F1分数进行评估。实验结果表明,BERTurk(大小写敏感,32k词表)模型的EM得分为51.097,F1得分为74.148;而BERTurk(大小写敏感,128k词表)模型的EM得分为55.121,F1得分为77.187。结果表明,预训练语言模型在低资源语言如土耳其语的问答任务中具有良好的应用潜力。本研究为土耳其语医学文本处理及自动问答任务奠定了重要基础,并为该领域的后续研究提供了有益启示。