BioBERT: نموذج تمثيل لغوي طبي مُدرب مسبقًا لتعدين النصوص الطبية

تعتبر تعدين النصوص الطبية البيولوجية (Biomedical text mining) مهمة متزايدة الأهمية مع زيادة سريعة في عدد الوثائق الطبية البيولوجية. ومع التقدم في معالجة اللغة الطبيعية (NLP)، اكتسب استخراج المعلومات القيمة من الأدبيات الطبية البيولوجية شعبية بين الباحثين، وقد أدى التعلم العميق إلى تعزيز تطوير نماذج فعالة لتعدين النصوص الطبية البيولوجية. ومع ذلك، فإن تطبيق التطورات في NLP مباشرة على تعدين النصوص الطبية البيولوجية غالباً ما ينتج عنه نتائج غير مرضية بسبب تحول توزيع الكلمات من المجموعات اللغوية العامة إلى المجموعات اللغوية الطبية البيولوجية. في هذا المقال، ندرس كيف يمكن تكييف النموذج اللغوي المُعد مسبقًا BERT للنصوص الطبية البيولوجية. نقدم BioBERT (تمثيلات الكود الاتجاهي من المتحولات لتعدين النصوص الطبية البيولوجية)، وهو نموذج تمثيل لغوي خاص بالمجال مُعد مسبقًا على مجموعات بيانات طبية بيولوجية واسعة النطاق. بفضل هيكله القريب من الهياكل المستخدمة في المهام المختلفة، يتفوق BioBERT بشكل كبير على BERT والنماذج الرائدة السابقة في مجموعة متنوعة من مهام تعدين النصوص الطبية البيولوجية عند إعداده مسبقًا على البيانات الطبية البيولوجية. بينما تحصل BERT على أداء مشابه لأداء النماذج الرائدة السابقة، فإن BioBERT يتفوق عليها بشكل كبير في ثلاث مهام رئيسية لتعدين النصوص الطبية البيولوجية: التعرف على الكيانات المسماة في المجال الطبي البيولوجي (تحسين بنسبة 0.62% في درجة F1)، استخراج العلاقات في المجال الطبي البيولوجي (تحسين بنسبة 2.80% في درجة F1) والرد على الأسئلة في المجال الطبي البيولوجي (تحسين بنسبة 12.24% في معدل الاسترجاع الأولي MRR). تظهر نتائج تحليلنا أن إعداد BERT مسبقًا على البيانات الطبية البيولوجية يساعده على فهم النصوص الطبية البيولوجية المعقدة. نوفر أوزان BioBERT المُعدة مسبقًا بشكل مجاني عبر الرابط https://github.com/naver/biobert-pretrained، كما نوفر كود المصدر لضبط BioBERT الدقيق عبر الرابط https://github.com/dmis-lab/biobert.