HyperAIHyperAI

Command Palette

Search for a command to run...

تغطية النموذج اللغوي المحدد للمنطقة لمعالجة اللغة الطبيعية في المجال البيولوجي الطبي

YU GU* ROBERT TINN* HAO CHENG* MICHAEL LUCAS NAO TO USUYAMA XIAODONG LIU TRISTAN NAUMANN JIANFENG GAO HOIFUNG POON

الملخص

تعد تدريب النماذج اللغوية العصبية الكبيرة، مثل BERT، قد أدت إلى مكاسب ملحوظة في العديد من مهام معالجة اللغة الطبيعية (NLP). ومع ذلك، فإن معظم جهود التدريب الأولي تركز على نصوص عامة، مثل الأخبار والويب. الافتراض السائد هو أن حتى التدريب الأولي المحدد للنطاق يمكن أن يستفيد من بدء العمل بنماذج اللغة العامة. في هذا البحث، نتحدى هذا الافتراض بعرضنا أن في النطاقات التي تحتوي على كميات كبيرة من النصوص غير المصنفة، مثل الطب الحيوي، فإن تدريب النماذج اللغوية من الصفر يؤدي إلى مكاسب كبيرة مقارنة بالتدريب المستمر للنماذج اللغوية العامة. لتسهيل هذه الدراسة، قمنا بتجميع مقاييس شاملة لمعالجة اللغة الطبيعية في المجال الطب الحيوي من مجموعة بيانات متاحة للعامة. أظهرت تجاربنا أن التدريب الأولي المحدد للنطاق يشكل أساسًا صلبًا لمجموعة واسعة من مهام معالجة اللغة الطبيعية في المجال الطب الحيوي، مما أدى إلى تحقيق أفضل النتائج الحالية في جميع المجالات. بالإضافة إلى ذلك، عند إجراء تقييم شامل لخيارات النمذجة، سواءً للتدريب الأولي أو التعديل الدقيق المحدد للمهمة، اكتشفنا أن بعض الممارسات الشائعة غير ضرورية مع نماذج BERT، مثل استخدام خطط الوسم المعقدة في تحديد الكيانات المسماة (NER). لمساعدة في تسريع الأبحاث في مجال معالجة اللغة الطبيعية الطب الحيوي، قمنا بإصدار نماذج التدريب الأولي والأداء المحدد للمهمة التي حققت أفضل النتائج الحالية للمجتمع العلمي، وإنشاء لوحة تصنيف تعرض مقاييس BLURB الخاصة بنا (اختصار لـ Biomedical Language Understanding & Reasoning Benchmark) على الرابط https://aka.ms/BLURB.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp