منذ 12 أيام
التعامل مع العناصر النادرة في توليد النص من البيانات
{Claire Gardent, Anastasia Shimorina}

الملخص
تتعامل النهج العصبية لإنشاء النص من البيانات عادةً مع العناصر النادرة في المدخلات إما باستخدام عملية إزالة الترميز (delexicalisation) أو آلية النسخ (copy mechanism). نقوم في هذه الدراسة بتحليل التأثير النسبي لهاتين الطريقتين على مجموعتي بيانات (E2E وWebNLG) باستخدام حالتين تقييميتين مختلفتين. ونُظهر أن: (أ) تؤثر العناصر النادرة بشكل كبير على الأداء؛ (ب) يُحقق الدمج بين إزالة الترميز وآلية النسخ أفضل تحسين؛ (ج) تُظهر آلية النسخ أداءً أضعف عند التعامل مع العناصر النادرة وغير المُدرَّكة مسبقًا؛ (د) يختلف التأثير الناتج عن هاتين الآليتين بشكل كبير حسب طريقة بناء المجموعة وطريقة تقسيمها إلى مجموعات التدريب والتحقق والاختبار.