HyperAIHyperAI
منذ 11 أيام

خسارة دايس لمهام معالجة اللغة الطبيعية غير المتوازنة من حيث البيانات

Xiaoya Li, Xiaofei Sun, Yuxian Meng, Junjun Liang, Fei Wu, Jiwei Li
خسارة دايس لمهام معالجة اللغة الطبيعية غير المتوازنة من حيث البيانات
الملخص

تواجه العديد من مهام معالجة اللغة الطبيعية (NLP) مثل التصنيف التصنيفي وفهم القراءة الآلية مشكلة توازن البيانات الشديدة: حيث يفوق عدد الأمثلة السلبية عدد الأمثلة الإيجابية بشكل كبير، ويُعَدّ العدد الهائل من الأمثلة الخلفية (أو الأمثلة السلبية السهلة) عائقًا كبيرًا أمام التدريب. في الواقع، يُعدّ معيار الانتروبيا المتقاطعة (CE) الأكثر شيوعًا هدفًا موجهًا نحو الدقة، وبالتالي يُحدث فجوة بين مرحلة التدريب والاختبار: ففي مرحلة التدريب، يساهم كل مثال تدريبي بالتساوي في الدالة الهدف، بينما في مرحلة الاختبار، يهتم معامل F1 أكثر بالأمثلة الإيجابية. في هذه الورقة، نقترح استخدام خسارة دايس (Dice Loss) بدلًا من الدالة الهدف القياسية المبنية على الانتروبيا المتقاطعة لمهام NLP التي تعاني من توازن غير متساوٍ في البيانات. تعتمد خسارة دايس على معامل سوريينسن-دايس أو مؤشر تفيرسكي، والذي يُعطي أهمية متساوية لكل من الأخطاء الإيجابية الكاذبة (False Positives) والأخطاء السلبية الكاذبة (False Negatives)، ويكون أكثر مقاومة لمشكلة عدم توازن البيانات. ولتقليل التأثير المهيمن لأمثلة الخلفية السهلة خلال التدريب، نقترح ربط أمثلة التدريب بوزن ديناميكي يتم تعديله تلقائيًا، بهدف تقليل أهمية الأمثلة السلبية السهلة. تُظهر التحليلات النظرية أن هذه الاستراتيجية تُضيّق الفجوة بين معامل F1 في التقييم والخسارة دايس في التدريب. وباستخدام الهدف التدريبي المقترح، لاحظنا تحسينًا كبيرًا في الأداء على مجموعة واسعة من مهام NLP التي تعاني من عدم توازن البيانات. وبشكل لافت، تمكنا من تحقيق نتائج متفوقة على مستوى المجال (SOTA) في مهام تصنيف الأدوار النحوية (Part-of-Speech Tagging) على مجموعات بيانات CTB5 وCTB6 وUD1.4؛ ونتائج متفوقة على مستوى المجال في مهام التعرف على الكيانات المعرفية (Named Entity Recognition) على مجموعات CoNLL03 وOntoNotes5.0 وMSRA وOntoNotes4.0؛ بالإضافة إلى نتائج تنافسية في مهام فهم القراءة الآلية وتحديد التماثل النحوي (Paraphrase Identification).

خسارة دايس لمهام معالجة اللغة الطبيعية غير المتوازنة من حيث البيانات | أحدث الأوراق البحثية | HyperAI