تحسين النماذج اللغوية المُدرَّبة مسبقًا في المجال الطبي من خلال المعرفة

أظهرت نماذج اللغة المُدرّبة مسبقًا نجاحًا في العديد من مهام معالجة اللغة الطبيعية. ودرس العديد من الأبحاث إدخال المعرفة إلى نماذج اللغة. وفي المجال الطبي الحيوي، بذل الخبراء جهودًا استمرت عقودًا لبناء قواعد بيانات ضخمة للمعرفة. على سبيل المثال، يحتوي نظام اللغة الطبية الموحّد (UMLS) على ملايين الكيانات مع مرادفاتها، ويُعرّف مئات العلاقات بين هذه الكيانات. ويمكن الاستفادة من هذه المعرفة في دعم مجموعة متنوعة من المهام الثانوية، مثل التعرف على الكيانات المحددة واستخلاص العلاقات. ولتحقيق هذا الهدف، نقترح نموذج KeBioLM، وهو نموذج مُدرّب مسبقًا في المجال الطبي الحيوي، يُستخدم المعرفة من قواعد بيانات UMLS بشكل صريح. وبشكل محدد، نستخرج الكيانات من ملخصات PubMed ونربطها بـ UMLS. ثم ندرّب نموذجًا لغويًا واعيًا بالمعارف، يطبّق أولًا طبقة ترميز نصية فقط لتعلم تمثيل الكيانات، ثم يطبّق طبقة ترميز مدمجة بين النص والكيانات لدمج تمثيلات الكيانات. علاوة على ذلك، نضيف كلاً من هدفي تدريب: كشف الكيانات وربط الكيانات. وأظهرت التجارب على مهام التعرف على الكيانات المحددة واستخلاص العلاقات من معيار BLURB فعالية النهج المقترح. كما أظهر التحليل الإضافي على مجموعة بيانات استقصاء تم جمعها أن نموذجنا يتمتع بقدرة أفضل على نمذجة المعرفة الطبية.