منذ 4 أشهر

بيوإلكترا: مشغل نصوص طبية مُدرَّب مسبقًا باستخدام المُميِّزات

{Malaikannan Sankarasubbu Bhuvana Kundumani Kamal raj Kanakarajan}

الملخص

أظهرت التطورات الحديثة في استراتيجيات التدريب المسبق في معالجة اللغة الطبيعية (NLP) تحسناً ملحوظاً في أداء النماذج على مهام تحليل النصوص المختلفة. نطبق تقنية التدريب المسبق المعروفة بـ "كشف الرمز المستبدل" (replaced token detection) التي اقترحها نموذج ELECTRA، ونقوم بتدريب نموذج لغوي طبي من الصفر باستخدام نصوص وقاموس طبي. نقدم نموذج BioELECTRA، وهو نموذج مشفر لغوي مخصص لمجال الطب، يُعدّل نموذج ELECTRA ليتناسب مع المجال الطبي. قمنا بتقييم نموذجنا على معايير NLP الطبية BLURB وBLUE. وتفوق BioELECTRA على النماذج السابقة، وحقق أفضل أداء (SOTA) على جميع مجموعات البيانات الـ 13 في معيار BLURB، وعلى جميع مجموعات البيانات السريرية الـ 4 من معيار BLUE عبر 7 مهام مختلفة في NLP. كما أظهر BioELECTRA أداءً ممتازاً على مجموعات البيانات السريرية عند تدريبه على مقالات المجلات الطبية الكاملة من PubMed وPMC. وحقق BioELECTRA أداءً جديداً في أفضل النتائج (SOTA) بنسبة 86.34% (بزيادة قدرها 1.39% في الدقة) على مجموعة بيانات MedNLI، وبنسبة 64% (بزيادة قدرها 2.98% في الدقة) على مجموعة بيانات PubMedQA.

المعايير القياسية

معيار قياسي	المنهجية	المقاييس
medical-named-entity-recognition-on-share	BioELECTRA	F1: 0.8371
natural-language-inference-on-mednli	BioELECTRA-Base	Accuracy: 86.34 Params (M): 110
question-answering-on-pubmedqa	BioELECTRA uncased	Accuracy: 64.2

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي

وحدات معالجة رسومات جاهزة

أفضل الأسعار

ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp