تحسين استخراج العلاقات عن بُعد من خلال تضمينات العلامات والحالات المستندة إلى BERT

استخراج العلاقات المُشرف عليها عن بُعد (RE) هو طريقة فعّالة لتوسيع نطاق استخراج العلاقات إلى مجموعات كبيرة من النصوص، لكنها تعاني من تسميات غير دقيقة. تحاول الطرق الحالية تخفيف هذه الضوضاء من خلال التعلم متعدد الحالات وتوفير معلومات إضافية، ولكنها تنجح بشكل أساسي في التعرف على العلاقات الأكثر شيوعًا، مع تجاهل تلك الموجودة في ذيل التوزيع. نقترح REDSandT (استخراج العلاقات باستخدام الإشراف عن بُعد والتحويلات)، وهي طريقة جديدة لاستخراج العلاقات المُشرف عليها عن بُعد تعتمد على نماذج التحويل، والتي تتمكن من التقاط مجموعة أوسع من العلاقات من خلال استخدام متجهات حالات وتسميات غنية بالمعلومات لاستخراج العلاقات، وذلك باستغلال نموذج BERT المدرب مسبقًا والعلاقة بين التسميات والكيانات على التوالي. نوجه REDSandT للتركيز فقط على الرموز العلائقية من خلال ضبط BERT الدقيق على مدخل هيكلية يشمل الفرع الفرعي الذي يربط زوج الكيانات وأنواع الكيانات. باستخدام المتجهات المعلوماتية المستخرجة، نشكل متجهات التسميات التي نستخدمها أيضًا كآلية انتباه فوق الحالات لتقليل الضوضاء بشكل أكبر. أخيرًا، نمثل الجمل من خلال ربط متجهات العلاقة والحالات. أظهرت التجارب في مجموعة بيانات NYT-10 أن REDSandT تلتقط مجموعة أوسع من العلاقات بمزيد من الثقة، مما حقق أفضل معدل AUC (0.424).