3 个月前

基于Transformer方法的低资源语言问答模型构建：以土耳其语医学文本为例的案例研究

{Murat Aydogan Mert Incidelen}

摘要

本研究针对土耳其语这一低资源语言，采用基于Transformer的预训练语言模型，通过医学文本对模型进行微调，以实现问答（Question Answering, QA）任务。研究中使用了基于大规模土耳其语语料库构建的BERTurk预训练语言模型的不同变体进行QA任务。研究构建了一个医学土耳其语问答数据集，该数据集由土耳其维基百科内容及土耳其高等教育理事会论文中心收录的医学学位论文整理而成，共包含8200对问答样本，用于BERTurk模型的微调。模型性能通过精确匹配（Exact Match, EM）和F1分数进行评估。实验结果表明，BERTurk（大小写敏感，32k词表）模型的EM得分为51.097，F1得分为74.148；而BERTurk（大小写敏感，128k词表）模型的EM得分为55.121，F1得分为77.187。结果表明，预训练语言模型在低资源语言如土耳其语的问答任务中具有良好的应用潜力。本研究为土耳其语医学文本处理及自动问答任务奠定了重要基础，并为该领域的后续研究提供了有益启示。

基准测试

基准	方法	指标
question-answering-on-medturkquad-medical	BERTurk (cased, 128k)	Exact Match: 55.121 F1 Score: 77.187
question-answering-on-medturkquad-medical	BERTurk (cased, 32k)	Exact Match: 51.097 F1 Score: 74.148

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程

即用型 GPU

最优价格

立即开始

Hyper Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

Command Palette

基于Transformer方法的低资源语言问答模型构建：以土耳其语医学文本为例的案例研究

{Murat Aydogan Mert Incidelen}

摘要

基准测试

用 AI 构建 AI

Hyper Newsletters