بيوإلكترا: مشغل نصوص طبية مُدرَّب مسبقًا باستخدام المُميِّزات

أظهرت التطورات الحديثة في استراتيجيات التدريب المسبق في معالجة اللغة الطبيعية (NLP) تحسناً ملحوظاً في أداء النماذج على مهام تحليل النصوص المختلفة. نطبق تقنية التدريب المسبق المعروفة بـ "كشف الرمز المستبدل" (replaced token detection) التي اقترحها نموذج ELECTRA، ونقوم بتدريب نموذج لغوي طبي من الصفر باستخدام نصوص وقاموس طبي. نقدم نموذج BioELECTRA، وهو نموذج مشفر لغوي مخصص لمجال الطب، يُعدّل نموذج ELECTRA ليتناسب مع المجال الطبي. قمنا بتقييم نموذجنا على معايير NLP الطبية BLURB وBLUE. وتفوق BioELECTRA على النماذج السابقة، وحقق أفضل أداء (SOTA) على جميع مجموعات البيانات الـ 13 في معيار BLURB، وعلى جميع مجموعات البيانات السريرية الـ 4 من معيار BLUE عبر 7 مهام مختلفة في NLP. كما أظهر BioELECTRA أداءً ممتازاً على مجموعات البيانات السريرية عند تدريبه على مقالات المجلات الطبية الكاملة من PubMed وPMC. وحقق BioELECTRA أداءً جديداً في أفضل النتائج (SOTA) بنسبة 86.34% (بزيادة قدرها 1.39% في الدقة) على مجموعة بيانات MedNLI، وبنسبة 64% (بزيادة قدرها 2.98% في الدقة) على مجموعة بيانات PubMedQA.