HyperAIHyperAI
منذ 11 أيام

بيوإلكترا: مشغل نصوص طبية مُدرَّب مسبقًا باستخدام المُميِّزات

{Malaikannan Sankarasubbu, Bhuvana Kundumani, Kamal raj Kanakarajan}
بيوإلكترا: مشغل نصوص طبية مُدرَّب مسبقًا باستخدام المُميِّزات
الملخص

أظهرت التطورات الحديثة في استراتيجيات التدريب المسبق في معالجة اللغة الطبيعية (NLP) تحسناً ملحوظاً في أداء النماذج على مهام تحليل النصوص المختلفة. نطبق تقنية التدريب المسبق المعروفة بـ "كشف الرمز المستبدل" (replaced token detection) التي اقترحها نموذج ELECTRA، ونقوم بتدريب نموذج لغوي طبي من الصفر باستخدام نصوص وقاموس طبي. نقدم نموذج BioELECTRA، وهو نموذج مشفر لغوي مخصص لمجال الطب، يُعدّل نموذج ELECTRA ليتناسب مع المجال الطبي. قمنا بتقييم نموذجنا على معايير NLP الطبية BLURB وBLUE. وتفوق BioELECTRA على النماذج السابقة، وحقق أفضل أداء (SOTA) على جميع مجموعات البيانات الـ 13 في معيار BLURB، وعلى جميع مجموعات البيانات السريرية الـ 4 من معيار BLUE عبر 7 مهام مختلفة في NLP. كما أظهر BioELECTRA أداءً ممتازاً على مجموعات البيانات السريرية عند تدريبه على مقالات المجلات الطبية الكاملة من PubMed وPMC. وحقق BioELECTRA أداءً جديداً في أفضل النتائج (SOTA) بنسبة 86.34% (بزيادة قدرها 1.39% في الدقة) على مجموعة بيانات MedNLI، وبنسبة 64% (بزيادة قدرها 2.98% في الدقة) على مجموعة بيانات PubMedQA.

بيوإلكترا: مشغل نصوص طبية مُدرَّب مسبقًا باستخدام المُميِّزات | أحدث الأوراق البحثية | HyperAI