بيوإلكترا: مشغل نصوص طبية مُدرَّب مسبقًا باستخدام المُميِّزات
{Malaikannan Sankarasubbu Bhuvana Kundumani Kamal raj Kanakarajan}

الملخص
أظهرت التطورات الحديثة في استراتيجيات التدريب المسبق في معالجة اللغة الطبيعية (NLP) تحسناً ملحوظاً في أداء النماذج على مهام تحليل النصوص المختلفة. نطبق تقنية التدريب المسبق المعروفة بـ "كشف الرمز المستبدل" (replaced token detection) التي اقترحها نموذج ELECTRA، ونقوم بتدريب نموذج لغوي طبي من الصفر باستخدام نصوص وقاموس طبي. نقدم نموذج BioELECTRA، وهو نموذج مشفر لغوي مخصص لمجال الطب، يُعدّل نموذج ELECTRA ليتناسب مع المجال الطبي. قمنا بتقييم نموذجنا على معايير NLP الطبية BLURB وBLUE. وتفوق BioELECTRA على النماذج السابقة، وحقق أفضل أداء (SOTA) على جميع مجموعات البيانات الـ 13 في معيار BLURB، وعلى جميع مجموعات البيانات السريرية الـ 4 من معيار BLUE عبر 7 مهام مختلفة في NLP. كما أظهر BioELECTRA أداءً ممتازاً على مجموعات البيانات السريرية عند تدريبه على مقالات المجلات الطبية الكاملة من PubMed وPMC. وحقق BioELECTRA أداءً جديداً في أفضل النتائج (SOTA) بنسبة 86.34% (بزيادة قدرها 1.39% في الدقة) على مجموعة بيانات MedNLI، وبنسبة 64% (بزيادة قدرها 2.98% في الدقة) على مجموعة بيانات PubMedQA.
المعايير القياسية
| معيار قياسي | المنهجية | المقاييس |
|---|---|---|
| medical-named-entity-recognition-on-share | BioELECTRA | F1: 0.8371 |
| natural-language-inference-on-mednli | BioELECTRA-Base | Accuracy: 86.34 Params (M): 110 |
| question-answering-on-pubmedqa | BioELECTRA uncased | Accuracy: 64.2 |
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.