Command Palette
Search for a command to run...
تغطية النموذج اللغوي المحدد للمنطقة لمعالجة اللغة الطبيعية في المجال البيولوجي الطبي
تغطية النموذج اللغوي المحدد للمنطقة لمعالجة اللغة الطبيعية في المجال البيولوجي الطبي
YU GU* ROBERT TINN* HAO CHENG* MICHAEL LUCAS NAO TO USUYAMA XIAODONG LIU TRISTAN NAUMANN JIANFENG GAO HOIFUNG POON
الملخص
تعد تدريب النماذج اللغوية العصبية الكبيرة، مثل BERT، قد أدت إلى مكاسب ملحوظة في العديد من مهام معالجة اللغة الطبيعية (NLP). ومع ذلك، فإن معظم جهود التدريب الأولي تركز على نصوص عامة، مثل الأخبار والويب. الافتراض السائد هو أن حتى التدريب الأولي المحدد للنطاق يمكن أن يستفيد من بدء العمل بنماذج اللغة العامة. في هذا البحث، نتحدى هذا الافتراض بعرضنا أن في النطاقات التي تحتوي على كميات كبيرة من النصوص غير المصنفة، مثل الطب الحيوي، فإن تدريب النماذج اللغوية من الصفر يؤدي إلى مكاسب كبيرة مقارنة بالتدريب المستمر للنماذج اللغوية العامة. لتسهيل هذه الدراسة، قمنا بتجميع مقاييس شاملة لمعالجة اللغة الطبيعية في المجال الطب الحيوي من مجموعة بيانات متاحة للعامة. أظهرت تجاربنا أن التدريب الأولي المحدد للنطاق يشكل أساسًا صلبًا لمجموعة واسعة من مهام معالجة اللغة الطبيعية في المجال الطب الحيوي، مما أدى إلى تحقيق أفضل النتائج الحالية في جميع المجالات. بالإضافة إلى ذلك، عند إجراء تقييم شامل لخيارات النمذجة، سواءً للتدريب الأولي أو التعديل الدقيق المحدد للمهمة، اكتشفنا أن بعض الممارسات الشائعة غير ضرورية مع نماذج BERT، مثل استخدام خطط الوسم المعقدة في تحديد الكيانات المسماة (NER). لمساعدة في تسريع الأبحاث في مجال معالجة اللغة الطبيعية الطب الحيوي، قمنا بإصدار نماذج التدريب الأولي والأداء المحدد للمهمة التي حققت أفضل النتائج الحالية للمجتمع العلمي، وإنشاء لوحة تصنيف تعرض مقاييس BLURB الخاصة بنا (اختصار لـ Biomedical Language Understanding & Reasoning Benchmark) على الرابط https://aka.ms/BLURB.