HyperAIHyperAI
منذ 11 أيام

OntoGUM: تقييم حل المشكلات المعاصرة للربط السياقي على 12 نوعًا إضافيًا

Yilun Zhu, Sameer Pradhan, Amir Zeldes
OntoGUM: تقييم حل المشكلات المعاصرة للربط السياقي على 12 نوعًا إضافيًا
الملخص

تحقيق أداء متفوق في حل الترابط (coreference resolution) يُظهر نتائج متزايدة التألق على معيار OntoNotes. ومع ذلك، فإن غياب بيانات مماثلة تتبع نفس المخطط لفئات نصية أكثر تنوعًا يجعل من الصعب تقييم قدرة النماذج على التعميم على بيانات من مجال مفتوح. تقدم هذه الورقة مجموعة بيانات وتقييمًا شاملاً يُظهر أن أنظمة النمذجة العصبية الحديثة القائمة على النماذج اللغوية (neural LM) تُظهر تدهورًا كبيرًا عند تطبيقها خارج المجال المُدرَّس. وقد قمنا بالإفصاح عن مجموعة بيانات تُسمى OntoGUM، وهي مُستوحاة من OntoNotes، مستخرجة من مختبر GUM، وهو مجموعة نصية إنجليزية تغطي 12 نوعًا نصيًا، باستخدام قواعد محددة، وقمنا بتقييمها. وبفضل التصنيفات النحوية والسردية الغنية الموجودة في GUM، تمكنا من إنشاء أكبر مجموعة نصية مُحدَّثة يدويًا للربط الترابط، وفقًا لمعايير OntoNotes، وهي أول مجموعة يتم تقييمها من حيث التوافق مع مخطط OntoNotes. أظهر التقييم خارج المجال عبر 12 نوعًا نصيًا تدهورًا بنسبة تصل إلى 15-20% لكل من النظم القائمة على القواعد المحددة والنُظم القائمة على التعلم العميق، مما يشير إلى نقص في القدرة على التعميم أو إلى تفادي مُخفي (covert overfitting) في نماذج حل الترابط الحالية.

OntoGUM: تقييم حل المشكلات المعاصرة للربط السياقي على 12 نوعًا إضافيًا | أحدث الأوراق البحثية | HyperAI