استخراج الكيانات والعلاقات المشتركة من المستندات العلمية: دور المعلومات اللغوية وأنواع الكيانات

تحتوي المقالات العلمية على أنواع مختلفة من الكيانات المحددة حسب المجال والعلاقات بينها. تمثل الكيانات والعلاقات بينها بشكل موجز معلومات مهمة حول موضوع المستند، وبالتالي فهي حاسمة لفهم المستندات وتحليلها تلقائيًا. في هذه الورقة، نهدف إلى استخراج الكيانات والعلاقات تلقائيًا من ملخص علمي باستخدام نموذج عصبي عميق. عند إدخال جملة، نستخدم محولًا مُدرَّبًا مسبقًا (Transformer) لإنتاج تمثيلات سياقية للرموز، والتي تُثري بتمثيلات علامات التصنيف النحوي (POS). يُشكّل سلسلة من تمثيلات الرموز المُثَرَّاة نطاقًا (span)، وتُدرَّس الكيانات والعلاقات معًا على مدى هذه النطاقات. تُستخدم القيم المتنبأة بالكيانات (Entity logits) من فئة الكيانات كمُميّزات (Features) في فئة العلاقات. يُظهر النموذج المقترح تحسنًا ملحوظًا مقارنة بالأساليب التنافسية السابقة في الأدبيات، في مهام استخراج الكيانات والعلاقات على مجموعتي بيانات SciERC وADE.