HyperAIHyperAI
منذ 2 أشهر

مقارنة ودمج بعض النهج الشائعة لتحديد الكيانات الاسمية في المهام الطبية الحيوية

Harsh Verma; Sabine Bergler; Narjesossadat Tahaei
مقارنة ودمج بعض النهج الشائعة لتحديد الكيانات الاسمية في المهام الطبية الحيوية
الملخص

نقارن بين ثلاث طرق بسيطة وشائعة للاستخراج الاسمي (NER): 1) SEQ (التصنيف التتابعي باستخدام تصنيف أحادي للرموز)، 2) SeqCRF (التصنيف التتابعي باستخدام حقول عشوائية مشروطة)، و3) SpanPred (تنبؤ الفواصل باستخدام تضمينات حدود الرموز). نقوم بمقارنة هذه الطرق على أربع مهام استخراج اسمي في المجال الطبي البيولوجي: GENIA، NCBI-Disease، LivingNER (الإسبانية)، وSocialDisNER (الإسبانية). يظهر نموذج SpanPred أداءً رائدًا في LivingNER وSocialDisNER، مما يحسن قيمة F1 بمقدار 1.3 و0.6 على التوالي. كما يظهر نموذج SeqCRF أداءً رائدًا في LivingNER وSocialDisNER، مما يحسن قيمة F1 بمقدار 0.2 و0.7 على التوالي. يعتبر نموذج SEQ منافسًا قويًا للأداء الرائد في مجموعة بيانات LivingNER. نستكشف بعض الطرق البسيطة لدمج الثلاثة طرق. نجد أن التصويت بالأغلبية يعطي دقة عالية ومعدل F1 مرتفع بشكل مستمر عبر جميع المجموعات الأربعة للبيانات. وأخيرًا، نقوم بتنفيذ نظام يتعلم كيفية دمج تنبؤات SEQ وSpanPred، مما ينتج أنظمة تعطي معدل استرجاع عالي ومعدل F1 مرتفع بشكل مستمر عبر جميع المجموعات الأربعة للبيانات. بالنسبة لمجموعة بيانات GENIA، نجد أن نظام الدمج الذي تم تعلمه يعزز بشكل كبير معدل F1 (+1.2) ومعدل الاسترجاع (+2.1) مقارنة بالنماذج التي يتم دمجها. لقد أطلقنا جميع الكود الموثق جيدًا اللازم لإعادة إنتاج جميع النظم على الرابط https://github.com/flyingmothman/bionlp.

مقارنة ودمج بعض النهج الشائعة لتحديد الكيانات الاسمية في المهام الطبية الحيوية | أحدث الأوراق البحثية | HyperAI