الحلول القائمة على التعلم الآلي لمرحلتين الثلاث من استخراج المعلومات السريرية: الحالة الراهنة في i2b2 2010
الهدف: مع نضج تقنية استخراج النصوص السريرية تدريجيًا، أصبحت إمكاناتها كتقنية تمكينية لتعزيز الابتكار في رعاية المرضى والأبحاث السريرية حقيقة واقعة. ويشكل جزء حاسم من هذه العملية اختبارًا صارمًا للأساليب المعتمدة على معالجة اللغة الطبيعية على نصوص سريرية واقعية. في هذه الورقة، يصف المؤلفون تصميم الأداء لثلاثة تطبيقات متقدمة في استخراج النصوص من معهد الأبحاث الوطني في كندا، وذلك ضمن تقييمات مسابقة i2b2 لعام 2010.التصميم: تقوم الأنظمة الثلاثة بثلاث خطوات رئيسية في استخراج المعلومات السريرية: (1) استخراج المشكلات الطبية، والاختبارات، والعلاجات، من ملخصات الخروج والملاحظات التقدمية؛ (2) تصنيف الادعاءات المقدمة بشأن المشكلات الطبية؛ (3) تصنيف العلاقات بين المفاهيم الطبية. ونَفّذت أنظمة التعلم الآلي هذه المهام باستخدام كتل كبيرة من الميزات ذات الأبعاد العالية، المستمدة من النص نفسه، وكذلك من مصادر خارجية مثل: UMLS، وcTAKES، وMedline.القياسات: تم قياس الأداء لكل مهمة فرعية باستخدام مؤشر F المُتوسط دقيقًا (micro-averaged F-scores)، وذلك من خلال مقارنة التسميات التي أنتجتها الأنظمة مع التسميات الحقيقية (ground-truth) على مجموعة الاختبار.النتائج: حظيت الأنظمة بتصنيف مرتفع بين جميع الأنظمة المقدمة في المسابقة، وبلغت القيم التالية من مؤشر F: استخراج المفاهيم 0.8523 (مصنفة الأولى)؛ كشف الادعاءات 0.9362 (مصنفة الأولى)؛ كشف العلاقات 0.7313 (مصنفة الثانية).الاستنتاج: بالنسبة لجميع المهام، وجدنا أن إدخال طيف واسع من الميزات كان حاسمًا للنجاح. وبشكل مهم، أتاح لنا اختيار خوارزميات التعلم الآلي مرونة كبيرة في تصميم الميزات، مما سمح لنا بدمج عدد كبير من الميزات دون التعرض لمشكلة التعلم الزائد (overfitting) أو مواجهة عوائق في الموارد الحاسوبية.