أداة للتعرف على الكيانات المحددة وتصحيحها متعددة الأنواع في النصوص الطبية باستخدام الشبكات العصبية للتنقيب في النصوص الطبية
يُعدّ حجم الأدبيات الطبية الحيوية ضخمًا ويتزايد بسرعة، وقد يُسهم في فعالية تقنيات استخراج النصوص الدقيقة في مساعدة الباحثين على استخلاص المعلومات المفيدة من هذه الأدبيات بكفاءة. ومع ذلك، فإن نماذج التعرف على الكيانات المُعرفة (Named Entity Recognition) الحالية المستخدمة في أدوات استخراج النصوص مثل tmTool وezTag ليست فعّالة بما يكفي، ولا تستطيع اكتشاف الكيانات الجديدة بدقة. علاوةً على ذلك، لا تأخذ الأدوات التقليدية لاستخراج النصوص في الاعتبار الكيانات المتداخلة، التي تظهر بشكل شائع في نتائج التعرف على الكيانات متعددة الأنواع. نقترح أداة جديدة تُسمى BERN، وهي أداة مبنية على الشبكات العصبية لاستخراج الكيانات الطبية الحيوية وتصنيفها متعدد الأنواع. تعتمد BERN على نماذج التعرف على الكيانات المُعرفة عالية الأداء المستندة إلى BioBERT، التي تُعرف الكيانات المعروفة وتكشف عن كيانات جديدة. كما تم تطوير قواعد اتخاذ قرارات قائمة على الاحتمالات لتحديد أنواع الكيانات المتداخلة. بالإضافة إلى ذلك، تم دمج نماذج متعددة لتصحيح الكيانات (Normalization) في BERN لتعيين معرف فريد لكل كيان تم اكتشافه. وتوفّر BERN خدمة ويب لوضع العلامات على الكيانات في مقالات PubMed أو النصوص الخام. ويمكن للباحثين استخدام خدمة BERN عبر الويب لأغراض استخراج النصوص، مثل اكتشاف كيانات مُعرفة جديدة، واسترجاع المعلومات، والإجابة على الأسئلة، واستخراج العلاقات. وتتوفر واجهات برمجة التطبيقات (APIs) والعروض التوضيحية لأداة BERN بشكل عام على الموقع الإلكتروني: https://bern.korea.ac.kr