التمييز الدقيق عن الكيانات المعرفية السريرية والبيولوجية الطبية على نطاق واسع
نُقدِّم خوارزميةً مرنةً ومتينةً للإنتاج، لاستخراج الكيانات المحددة في المجالات السريرية والبيولوجية الطبية (NER)، مبنية على هيكلة مُعدَّلة من نموذج BiLSTM-CNN-Char المُعتمِد على التعلم العميق، مُطبَّقة على منصة Apache Spark. تُحقِّق خوارزميتنا لاستخراج الكيانات المحددة أداءً مُتفوِّقًا على مستوى الأداء القياسي في 7 من أصل 8 معايير معروفة لاستخراج الكيانات المحددة في المجالات البيولوجية الطبية، بالإضافة إلى 3 تحديات في استخراج المفاهيم السريرية: استخراج المفاهيم السريرية في مسابقة i2b2/VA لعام 2010، وتحدي تفادي التعرف على الهوية في مسابقة n2c2 لعام 2014، واستخراج الأدوية في مسابقة n2c2 لعام 2018. علاوةً على ذلك، تُظهر النماذج السريرية المُدرَّبة باستخدام هذه الخوارزمية أداءً متفوِّقًا بشكل كبير على حلول استخراج الكيانات التجارية، مثل AWS Medical Comprehend وGoogle Cloud Healthcare API، من حيث الدقة (بفارق 8.9% و6.7% على التوالي)، دون الحاجة إلى استخدام نماذج لغوية مُستهلكة للذاكرة.