الاستخراج العددي للبيانات الطبية باستخدام مخطط جديد وتدريب بعيد

تمثّل التعرف على الكيانات المحددة في المجال الطبي الحيوي (BMNER) إحدى المهام الأكثر أهمية في مجال استخراج المعلومات من النصوص الطبية الحيوية. حتى الآن، لم تركز معظم الدراسات على تحديد الكيانات غير المستمرة والمتداخلة، رغم وجودها بنسبة كبيرة في مجموعات البيانات الطبية الحيوية الواقعية. في هذه الورقة، نقدّم نموذجًا جديدًا لتصنيف الكيانات يهدف إلى التقاط الكيانات المعقدة، ونستعرض تأثير التدريب عن بعد (distant supervision) على نموذجنا المستند إلى التعلّم العميق للتصنيف التسلسلي. بالنسبة لمهام BMNER، يتفوّق نموذج التصنيف المقدّم على غيره من النماذج القائمة على تنسيق BIO باستخدام نفس النموذج. كما نحقق قيمًا أعلى لمعيار F1 مقارنةً بالنماذج الرائدة في المجال، على عدة مجموعات بيانات، دون الحاجة إلى تعديل المُدمجات (embeddings)، مما يُبرز فعالية استخراج الميزات العصبية باستخدام نموذجنا.