HyperAIHyperAI
منذ 17 أيام

تعزيز استخراج العلاقات الطبية الحيوية باستخدام نماذج Transformer باستخدام ميزات المسار الاعتمادي الأقصر ومعلومات الثلاثيات

{Fabio Rinaldi, Vani Kanjirangat}
الملخص

يستحوذ استخراج العلاقات بين الكيانات على دور مهم في مجالات الأبحاث الحيوية والصحية والسريرية. في الآونة الأخيرة، أظهرت النماذج المُدرَّبة مسبقًا بناءً على هياكل المحولات (transformer) ومتغيراتها أداءً متميزًا في مهام معالجة اللغة الطبيعية المختلفة. وتعتمد معظم هذه المتغيرات على تعديلات طفيفة في المكونات المعمارية و schemes التمثيل، بالإضافة إلى تعزيز البيانات باستخدام طرق التدريب عن بعد (distant supervision). وفي الطرق المُعتمدة على التدريب عن بعد، يُعد أحد التحديات الرئيسية هو إزالة العينات الضوضائية. وتحدث حالة مشابهة عندما لا تكون العينات التدريبية متاحة مباشرة، بل يجب بناؤها من مجموعة البيانات المعطاة. يوفر مشروع BioCreative V الخاص بالعلاقات الكيميائية-المرضية (CDR) مجموعة بيانات لا تقدم تسميات ذهبية على مستوى الإشارات (mention-level) بشكل صريح، وبالتالي يُحاكي السيناريو المذكور أعلاه. أصبح اختيار الجمل الممثلة من النصوص المقدمة (كما في الملخصات أو المستندات) التي يمكنها نقل علاقة محتملة بين الكيانات أمرًا بالغ الأهمية. وتقترح معظم الطرق الحالية في الأدبيات أخذ النص الكامل أو جميع الجمل التي تحتوي على إشارات الكيانات. وقد يُعد هذا النهج مكلفًا من حيث الحوسبة ويستغرق وقتًا طويلاً. تقدم هذه الورقة نهجًا جديدًا للتعامل مع مثل هذه السيناريوهات، خصوصًا في مجال استخراج العلاقات الحيوية. نقترح استخدام ميزات المسار الارتباطي الأقصر (Shortest Dependency Path - SDP) لبناء عينات البيانات من خلال إزالة المعلومات الضوضائية واختيار العينات الأكثر تمثيلاً لعملية تعلم النموذج. كما نستفيد من معلومات الثلاثيات (triplet) في عملية تعلم النموذج باستخدام النسخة الحيوية من نموذج BERT، المعروفة بـ BioBERT. ونُمثل المشكلة كمهمة تصنيف أزواج الجمل، باستخدام الجملة والزوج الكيان-العلاقة كمدخلات. ونُحلِّل الأداء في كل من العلاقات داخل الجملة (intra-sentential) والعلاقات بين الجمل (inter-sentential) ضمن مجموعة بيانات CDR. وتُظهر النتائج المقدمة من النهج الذي يستخدم ميزات SDP وثلاثيات الكيان-العلاقة نتائج واعدة، خاصة في مهمة استخراج العلاقات بين الجمل. ونُعمِّم الكود المستخدم في هذه الدراسة بشكل عام على منصة GitHub.