حل مشكلة نطاق التكهن والإنكار باستخدام هياكل مستندة إلى الترانسفورمر

التكهن هو ظاهرة تحدث بشكل طبيعي في البيانات النصية، ويشكل مكونًا أساسيًا في العديد من الأنظمة، خاصة في مجال استرجاع المعلومات الحيوية الطبية. الأعمال السابقة التي تناولت اكتشاف الإشارات وتحديد نطاق التكهن (وهما المهمتان الفرعيتان للكشف عن التكهن) امتدت من أنظمة القواعد إلى نماذج التعلم العميق. في هذا البحث، نطبق ثلاثة هياكل شائعة تعتمد على المتحولات (الترانسفورمر)، وهي BERT و XLNet و RoBERTa، لهذه المهمة باستخدام مجموعتين من البيانات متاحتين للجمهور، وهما مجموعة BioScope Corpus ومجموعة SFU Review Corpus، مما يحقق تحسينات كبيرة على النتائج المبلغ عنها سابقًا (بزيادة لا تقل عن 0.29 نقطة F1 في اكتشاف الإشارات و4.27 نقطة F1 في تحديد النطاق). كما أجرينا تجارب على التدريب المشترك للنموذج على عدة مجموعات بيانات، وهو ما أدى إلى تفوقه بفارق كبير على نهج التدريب باستخدام مجموعة بيانات واحدة فقط. لوحظ أن XLNet يتفوق باستمرار على BERT و RoBERTa، وهو ما يتعارض مع النتائج التي تم الحصول عليها على مجموعات بيانات المعايير الأخرى. لتأكيد هذه الملاحظة، قمنا بتطبيق XLNet و RoBERTa للكشف عن النفي وتحديد نطاقه، مما أدى إلى تحقيق أفضل النتائج المعروفة حتى الآن في تحديد نطاق النفي لمجموعة BioScope Corpus (زيادة بمقدار 3.16 نقطة F1 في أوراق BioScope الكاملة و0.06 نقطة F1 في الملخصات) ومجموعة SFU Review Corpus (زيادة بمقدار 0.3 نقطة F1).