BioFLAIR: التضمينات السياقية المجمعة المدربة مسبقًا لمهام تصنيف التسلسلات الحيوية الطبية

التعرف على الكيانات المسماة الطبية الحيوية (NER) هو مشكلة صعبة في معالجة المعلومات الطبية الحيوية بسبب الالتباس الشائع للمصطلحات خارج السياق والاختلافات اللексية الواسعة. تستمر الأداء في معايير bioNER في التحسن بفضل التطورات مثل BERT و GPT و XLNet. يعتبر FLAIR (1) نموذجًا بديلًا للتمثيل المدمج (embedding) وهو أقل كثافة حسابية من النماذج المذكورة سابقًا. قمنا باختبار FLAIR وتمثيلاته المدربة مسبقًا على PubMed (والتي نطلق عليها BioFLAIR) في مجموعة متنوعة من مهام bio NER ومقارنة النتائج مع تلك التي تم الحصول عليها من شبكات BERT. كما درسنا آثار إجراء تدريب مسبق إضافي قليل على محتوى PubMed، وكذلك آثار دمج نماذج FLAIR و ELMO. وجدنا أن مع التمثيلات المقدمة، يحقق FLAIR أداءً يعادل أداء شبكات BERT - حتى أنه أنشأ حالة جديدة رائدة في أحد المعايير. لم يوفر التدريب المسبق الإضافي فائدة واضحة، رغم أن هذا قد يتغير إذا تم إجراء المزيد من التدريب المسبق. عادةً ما يؤدي تراكيب التمثيلات المدمجة لـ FLAIR مع الأخرى إلى زيادة في نتائج المعايير.