HyperAIHyperAI
منذ 3 أشهر

التحديات في المعالجة اللغوية الطبية الطبيعية السريرية لتوحيد الاضطرابات تلقائيًا

{Robert Leaman, Zhiyong Lu, Ritu Khare}
التحديات في المعالجة اللغوية الطبية الطبيعية السريرية لتوحيد الاضطرابات تلقائيًا
الملخص

الخلفيةتمثّل تحديد المتغيرات الرئيسية، مثل الأمراض المذكورة في السجلات الصحية الإلكترونية، تطبيقات واسعة النطاق في الممارسة السريرية والبحث الحيوي. أظهرت الأبحاث السابقة أن أداء استخراج الكيانات المرضية (NER) والتوحيد (أو التأصيل) في النصوص السريرية يقل عن أداءهما في المنشورات البيولوجية الطبية. في هذه الدراسة، نهدف إلى تحديد السبب وراء هذا الفرق في الأداء، وتقديم حلول عامة تُعالج هذه المشكلة.الطرقنستخدم خصائص الإغلاق (closure properties) لمقارنة ثراء المفردات في النصوص السريرية مقارنةً بالمنشورات البيولوجية الطبية. نعتمد منهجيات التعلم الآلي في معالجة كل من استخراج الكيانات المرضية (NER) والتوحيد. تعتمد منهجيتنا في NER على الحقول العشوائية الشرطية المتسلسلة الخطية (linear-chain conditional random fields) مع نهج غني بالميزات، ونُقدّم عدة تحسينات لتعزيز المعرفة اللفظية لنظام NER. أما منهجية التوحيد، فهي أول مرة تُطبّق على بيانات سريرية، وتستخدم التعلم بالتصنيف الثنائي (pairwise learning to rank) لاستخلاص التغيرات في المصطلحات تلقائيًا مباشرة من بيانات التدريب.النتائجنجد أن حجم المفردات الإجمالي في النصوص السريرية يشبه إلى حد كبير حجم المفردات في المنشورات البيولوجية الطبية، لكن النصوص السريرية تستخدم مصطلحات أكثر غنىً لوصف الأمراض. قمنا بتطبيق نظامنا، DNorm-C، لتحديد الإشارات إلى الأمراض في النصوص السريرية من مسابقة ShARe/CLEF eHealth الأخيرة. بالنسبة لمهام NER (بنمط الصيغة الصارمة فقط)، حقق النظام دقة = 0.797، ودقة استرجاع = 0.713، وقيمة F = 0.753. أما بالنسبة لمهام التوحيد (بنمط الصيغة الصارمة + المفهوم)، فقد حقق دقة = 0.712، ودقة استرجاع = 0.637، وقيمة F = 0.672. وتجدر الإشارة إلى أن التحسينات المذكورة في هذه الدراسة زادت من قيمة F في NER بمقدار 0.039، ومن قيمة F في التوحيد بمقدار 0.036. كما قمنا بوصف نسخة عالية الاسترجاع لنظام NER، والتي زادت من استرجاع التوحيد إلى ما يصل إلى 0.744، على الرغم من انخفاض الدقة قليلاً.المناقشةأجرينا تحليلًا للأخطاء، وأظهرنا أن أخطاء NER تفوق أخطاء التوحيد بنسبة تزيد عن 4:1. ووجدنا أن الاختصارات والأحرف الأولى المختصرة (acronyms) تمثل من بين الأسباب الشائعة للخطأ، إلى جانب الإشارات التي لم يتمكن المُعلّقون من تحديدها ضمن حدود القاموس المُتحكم به.الاستنتاجتُظهر الإشارات إلى الأمراض في النصوص السريرية استخدامًا لمفردات غنية، ما يؤدي إلى تباين كبير في الصيغة المُستخدمة، ونعتقد أن هذا التباين يُعدّ أحد الأسباب الرئيسية لانخفاض الأداء في النصوص السريرية. ونُظهر أن التعلم بالتصنيف الثنائي يحقق أداءً عاليًا في هذا السياق، كما نقدّم عدة تحسينات لغوية (lexical enhancements) قابلة للتطبيق على مهام NER السريرية الأخرى، والتي تُعزز قدرة نظام NER على التعامل مع هذا التباين. يُعد DNorm-C نظامًا عالي الأداء وذو مصادر مفتوحة (open source) لاستخراج الأمراض من النصوص السريرية، وخطوة واعدة نحو تطوير منهجيات NER والتوحيد القابلة للتدريب على نطاق واسع من المجالات والكيانات. (يُمكن الحصول على برنامج DNorm-C مفتوح المصدر مع نموذج مدرب عبر الموقع التجريبي DNorm: http://www.ncbi.nlm.nih.gov/CBBresearch/Lu/Demo/tmTools/#DNorm.)