آلية النسخ والتدريب المخصص لتوليد النصوص القائمة على الحروف من البيانات

في السنوات الأخيرة، ركزت العديد من الطرق المختلفة على استخدام الشبكات العصبية المتكررة العميقة لتوليد اللغة الطبيعية. أكثر الأساليب العصبية التسلسلية المستخدمة على نطاق واسع هي القائمة على الكلمات: وبالتالي، فإنها تحتاج إلى خطوة معالجة سابقة تُعرف بـ "التفكيك اللексاني" (delexicalization) (وبالمقابل، "إعادة التفكيك اللكساني" (relexicalization)) للتعامل مع الكلمات غير الشائعة أو المجهولة. ومع ذلك، فإن هذه أشكال المعالجة تؤدي إلى نماذج تعتمد على المفردات المستخدمة ولا تكون عصبية تمامًا.في هذا العمل، نقدم نموذجًا تسلسليًا من النهاية إلى النهاية مزودًا بآلية الانتباه يقرأ ويولد على مستوى الحروف، مما لم يعد يتطلب التفكيك اللكساني، أو التجزئة (tokenization)، أو حتى تحويل الحروف إلى صغرى (lowercasing). بالإضافة إلى ذلك، بما أن الحروف تشكل الوحدات الأساسية المشتركة لكل نص، فإن هذا النموذج يتيح أيضًا نهجًا أكثر عمومية لتوليد النصوص، مما يمكن من الاستفادة من التعلم بالنقل في التدريب. يتم الحصول على هذه المهارات بفضل ميزتين رئيسيتين: (أ) إمكانية التنقل بين آلية التوليد القياسية وآلية النسخ، مما يسمح بنسخ الحقائق المدخلة مباشرة لإنتاج المخرجات، و(ب) استخدام خط أنابيب تدريبي أصلي يحسن جودة النصوص المولدة بشكل أكبر.نقدم أيضًا مجموعة بيانات جديدة تُسمى E2E+ مصممة لتسليط الضوء على قدرات النسخ للنماذج القائمة على الحروف، وهي نسخة معدلة من مجموعة البيانات E2E المعروفة جيدًا والتي استخدمت في تحدي E2E. قمنا باختبار نموذجنا وفق خمس مؤشرات مقبولة بشكل عام (تشمل المؤشر الأكثر استخدامًا BLEU)، مما أظهر أن أدائه تنافسي بالنسبة لكلا النماذج القائمة على الحروف والقائمة على الكلمات.