توليد النصوص العصبية من البيانات المهيكلة مع تطبيق في مجال السير الذاتية

يقدم هذا البحث نموذجًا عصبيًا لإنشاء النصوص من المفاهيم يمكنه التوسع إلى مجالات كبيرة وغنية. قمنا بإجراء تجارب على مجموعة بيانات جديدة تتضمن سيرًا ذاتية من ويكيبيديا، وهي أكبر بمقدار عشري من الموارد الموجودة حاليًا، حيث تحتوي على أكثر من 700 ألف عينة. كما أن هذه المجموعة البيانات أكثر تنوعًا بكثير، حيث يبلغ مجموع مفرداتها 400 ألف كلمة، بالمقارنة مع بضع مئات من الكلمات في Weathergov أو Robocup. يعتمد نموذجنا على الأعمال الحديثة المتعلقة بنماذج اللغة العصبية المشروطة لإنشاء النصوص. للتعامل مع المفردات الكبيرة، قمنا بتوسيع هذه النماذج لدمج مفردات ثابتة مع أفعال نسخ تقوم بنقل الكلمات الخاصة بكل عينة من قاعدة البيانات الإدخال إلى الجملة النصية المنتجة. حقق نموذجنا العصبي تفوقًا كبيرًا على نموذج اللغة التقليدي Kneser-Ney الذي تم تعديله لهذه المهمة، حيث بلغ الفرق حوالي 15 نقطة في مؤشر BLEU (Bilingual Evaluation Understudy).