BERT-GT: استخراج العلاقات الن-ية بين الجمل باستخدام BERT و Graph Transformer

تُعبَّر عادةً عن العلاقة الطبية الحيوية في جمل متعددة وتتألف من العديد من المفاهيم، بما في ذلك الجينات والأمراض والكيماويات والطفرات. لاستخراج المعلومات تلقائيًا من الأدبيات الطبية الحيوية، تُصاغ النُّهُج الحالية لتعدين النصوص الطبية الحيوية المشكلة كمهمة استخراج علاقات ثنائية الجمل (n-ary relation-extraction) تكتشف العلاقات بين n كيان عبر جمل متعددة، وتستخدم إما شبكة عصبية رسمية مع ذاكرة طويلة قصيرة المدى (GNN مع LSTM) أو آلية الانتباه (attention mechanism). مؤخرًا، أثبتت نماذج التحويل (Transformer) أنها تتفوق على LSTM في العديد من مهام معالجة اللغة الطبيعية (NLP). في هذا البحث، نقترح هندسة جديدة تجمع بين تمثيلات الكودير الثنائي من نماذج التحويل مع تحويل الرسم البياني (BERT-GT)، وذلك من خلال دمج آلية انتباه الجيران في هيكل BERT. بخلاف هيكل Transformer الأصلي، الذي يستخدم الجملة الكاملة (أو الجمل) لحساب انتباه العنصر الحالي، فإن آلية انتباه الجيران في طريقتنا تقوم بحساب الانتباه باستخدام فقط عناصرها المجاورة. وهكذا، يمكن لكل عنصر أن يركز على المعلومات المجاورة له مع ضوضاء قليلة. نوضح أن هذا مهم للغاية عند وجود نص طويل، كما هو الحال في مهام استخراج العلاقات بين جمل أو على مستوى الملخص. أظهرت نتائج اختبار المقاييس لدينا تحسينات بنسبة 5.44% و3.89% في الدقة ومعيار F1 مقارنة بأحدث التقنيات على مجموعات بيانات العلاقات الثنائية والكيماوية-البروتينية، مما يشير إلى أن BERT-GT هي طريقة صلبة يمكن تطبيقها على مهام أخرى لاستخراج العلاقات الطبية الحيوية أو مجموعات بيانات أخرى.