GatorTron: 비정형 전자 의료 기록에서 환자 정보를 해제하기 위한 대규모 임상 언어 모델

인공지능(AI) 시스템을 이용하여 전자건강기록(EHRs)을 처리하고 해석하는 데 대한 관심이 증가하고 있습니다. 임상 내러티브를 활용하는 의료 AI 시스템의 핵심 기술은 사전 훈련된 언어 모델에 의해 구동되는 자연어 처리(NLP)입니다. 그러나 임상 분야에서 사용되는 언어 모델은 거의 없으며, 이 중 가장 큰 모델도 일반 분야에서 수십억 개의 매개변수를 가진 것과 비교할 때 상대적으로 작아서 1억 1천만 개의 매개변수만을 가지고 있습니다. 수십억 개의 매개변수를 가진 큰 임상 언어 모델이 비정형 EHRs를 활용하는 의료 AI 시스템에 어떻게 도움을 줄 수 있는지는 명확하지 않습니다. 본 연구에서는 >900억 단어(임상 정보가 제거된 >820억 단어 포함)로 구성된 텍스트를 사용하여 대규모 임상 언어 모델 - GatorTron을 처음부터 개발하고, 임상 개념 추출, 의학적 관계 추출, 의미론적 텍스트 유사성, 자연어 추론(NLI), 및 의학 질문 응답(MQA) 등 5개의 임상 NLP 작업을 체계적으로 평가하였습니다. 우리는 (1) 매개변수의 수를 확장하고 (2) 훈련 데이터의 크기를 확장함으로써 이러한 NLP 작업에 어떤 이점이 있는지를 조사하였습니다. GatorTron 모델은 임상 언어 모델의 매개변수를 1억 1천만 개에서 89억 개로 확장시키고, 5개의 임상 NLP 작업(예: NLI와 MQA에서 각각 정확도가 9.6%와 9.5% 향상)을 개선하여 의료 AI 시스템을 통해 의료 서비스 제공을 개선할 수 있도록 적용되었습니다. GatorTron 모델은 공개적으로 이용 가능하며, 다음 주소에서 확인할 수 있습니다: https://catalog.ngc.nvidia.com/orgs/nvidia/teams/clara/models/gatortron_og.