غاتورترون: نموذج لغوي سريري كبير لفك المعلومات الطبية للمرضى من السجلات الصحية الإلكترونية غير المهيكلة

هناك اهتمام متزايد بتطوير أنظمة الذكاء الاصطناعي (AI) لمعالجة وتفسير السجلات الصحية الإلكترونية (EHRs). تعتبر معالجة اللغة الطبيعية (NLP) المدعومة بالنماذج اللغوية المدربة مسبقًا التكنولوجيا الأساسية لأنظمة الذكاء الاصطناعي الطبية التي تستفيد من السرد السريري. ومع ذلك، فإن عدد النماذج اللغوية السريرية قليل، وأكبرها مدرب في المجال السريري يحتوي على حوالي 110 مليون معلمة (مقارنة بالمليارات من المعاملات في المجال العام). لم يتم تحديد مدى فائدة النماذج اللغوية السريرية الكبيرة ذات مليارات المعاملات في تحسين استخدام الأنظمة الطبية للذكاء الاصطناعي للسجلات الصحية الإلكترونية غير المنظمة. في هذه الدراسة، قمنا بتطوير نموذج لغوي سريري كبير - GatorTron - باستخدام أكثر من 90 مليار كلمة نصية (بما في ذلك أكثر من 82 مليار كلمة نصية سريرية تم إزالة هويتها) وقمنا بتقييمه بشكل منهجي على خمس مهام لمعالجة اللغة الطبيعية السريرية تشمل استخراج المفاهيم السريرية، واستخراج العلاقات الطبية، وتشابه النصوص الدلالية، والاستدلال عن اللغة الطبيعية (NLI)، وإجابات الأسئلة الطبية (MQA). نحن ندرس كيف يمكن أن تفيد هذه المهام (1) زيادة عدد المعاملات و(2) زيادة حجم بيانات التدريب. تقوم نماذج GatorTron بتوسيع نطاق النموذج اللغوي السريري من 110 مليون إلى 8.9 مليار معاملة وتحسن أداء خمس مهام NLP سريرية (مثل تحسن بنسبة 9.6% و9.5% في دقة NLI وMQA)، والتي يمكن تطبيقها في أنظمة الذكاء الاصطناعي الطبية لتحسين تقديم الرعاية الصحية. يمكن الوصول إلى نماذج GatorTron بشكل عام عبر الرابط: https://catalog.ngc.nvidia.com/orgs/nvidia/teams/clara/models/gatortron_og.