تحسين فهم الوثائق السريرية في أبحاث كوفيد-19 باستخدام Spark NLP

في أعقاب الجائحة العالمية لفيروس كورونا (COVID-19)، شهد عدد الأوراق العلمية التي تدرس الفيروس نموًا كبيرًا، مما أدى إلى زيادة الاهتمام بمراجعة الأدبيات الآلية. نقدم نظام تعدين النصوص السريرية الذي يتفوق على الجهود السابقة في ثلاثة جوانب. أولاً، يمكنه التعرف على أكثر من 100 نوع مختلف من الكيانات، بما في ذلك العوامل الاجتماعية المؤثرة على الصحة، التشريح، عوامل الخطر والأحداث الضارة بالإضافة إلى الكيانات السريرية والبيولوجية الأخرى الشائعة الاستخدام. ثانيًا، يتضمن خط معالجة النصوص اكتشاف حالة الإدعاء (assertion status) لتمييز الحقائق السريرية الموجودة عن تلك الغائبة أو المشروطة أو المتعلقة بشخص آخر غير المريض. ثالثًا، تكون نماذج التعلم العميق المستخدمة أكثر دقة من تلك المتاحة سابقًا، حيث تستفيد من خط أنابيب متكامل لنماذج التعرف على الكيانات المسبقة التدريب (pretrained named entity recognition models) وتحسن على أفضل المعايير السابقة لأداء اكتشاف حالة الإدعاء.نوضح استخراج الاتجاهات والمعلومات، مثل أكثر الاضطرابات والأعراض شيوعًا وأكثر العلامات الحيوية ونتائج القلب الكهربائية (EKG) شيوعًا، من مجموعة بيانات البحث المفتوح لفيروس كورونا (CORD-19). تم بناء النظام باستخدام مكتبة Spark NLP التي تدعم بشكل أصيل التوسع لاستخدامusters موزعة، واستغلال وحدات المعالجة الرسومية (GPUs)، وخطوط أنابيب معالجة اللغة الطبيعية القابلة للتكوين والاستخدام مرة أخرى، والتشبيك الخاص بالرعاية الصحية، وقدرة تدريب النماذج لدعم أنواع كيانات جديدة أو لغات بشرية دون الحاجة لتغيير أي كود.