2 个月前

GatorTron:一种大型临床语言模型,用于从非结构化电子健康记录中提取患者信息

Xi Yang; Aokun Chen; Nima PourNejatian; Hoo Chang Shin; Kaleb E Smith; Christopher Parisien; Colin Compas; Cheryl Martin; Mona G Flores; Ying Zhang; Tanja Magoc; Christopher A Harle; Gloria Lipori; Duane A Mitchell; William R Hogan; Elizabeth A Shenkman; Jiang Bian; Yonghui Wu
GatorTron:一种大型临床语言模型,用于从非结构化电子健康记录中提取患者信息
摘要

近年来,开发用于处理和解释电子健康记录(EHRs)的人工智能(AI)系统引起了越来越多的兴趣。由预训练语言模型驱动的自然语言处理(NLP)是利用临床叙述的医疗AI系统的关键技术。然而,目前临床领域的语言模型数量较少,其中最大的一个也仅有1.1亿个参数(相比之下,通用领域的语言模型参数量可达数十亿)。尚不清楚具有数十亿参数的大规模临床语言模型如何帮助医疗AI系统利用非结构化的EHRs。在本研究中,我们从零开始开发了一个大规模的临床语言模型——GatorTron,使用了超过900亿个单词的文本数据(包括超过820亿个单词的去标识化临床文本),并系统地对其进行了5项临床NLP任务的评估,这些任务包括临床概念提取、医学关系提取、语义文本相似度、自然语言推理(NLI)和医学问答(MQA)。我们探讨了(1)增加参数数量和(2)扩大训练数据规模对这些NLP任务的影响。GatorTron模型将临床语言模型的参数量从1.1亿扩展到8.9亿,并在5项临床NLP任务上取得了显著改进(例如,在NLI和MQA任务上的准确率分别提高了9.6%和9.5%),这些改进可以应用于医疗AI系统以提升医疗服务水平。GatorTron模型已公开发布,可访问以下链接获取:https://catalog.ngc.nvidia.com/orgs/nvidia/teams/clara/models/gatortron_og。