تعلم إنشاء أسئلة من خلال استرداد جمل تحتوي على إجابات

لتدريب نموذج إجابة الأسئلة المستند إلى فهم القراءة الآلية (MRC)، يتطلب الأمر جهدًا كبيرًا لتجهيز بيانات تدريب مُعلّمة تتألف من أسئلة وإجابات مُستمدة من سياقات معينة. ولتقليل هذه المشكلة، ركّزت الأبحاث الحديثة على توليد أسئلة بشكل اصطناعي من سياق معطى وإجابة مُعلّمة (أو مُولّدة) من خلال تدريب نموذج توليد إضافي، والذي يمكن استخدامه لتوسيع بيانات التدريب. بالنظر إلى هذا الاتجاه البحثي، نقترح منهجًا مُدرّبًا مسبقًا جديدًا يتعلّم توليد أسئلة غنية بالسياق من خلال استرجاع الجمل التي تحتوي على الإجابات. يتكون هذا النهج من مكوّنين جديدين: (1) تحديد ديناميكي لـ K إجابة من مستند معطى، و(2) تدريب النموذج المُولّد للأسئلة مسبقًا على مهمة توليد الجملة التي تحتوي على الإجابة. قمنا بتقييم طريقة عملنا مقابل الطرق الحالية من حيث جودة الأسئلة المُولّدة، وكذلك دقة نموذج MRC بعد التخصيص (fine-tuning) باستخدام بيانات تم توليدُها اصطناعيًا عبر طريقتنا. أظهرت النتائج التجريبية أن منهجنا يُحسّن باستمرار قدرة النماذج الحالية مثل UniLM على توليد الأسئلة، ويحقق نتائج متقدمة على مجموعتي بيانات MS MARCO وNewsQA، ويُقدّم نتائج مماثلة للحالة الراهنة على SQuAD. علاوةً على ذلك، نُظهر أن البيانات المُولّدة اصطناعيًا عبر طريقتنا تُسهم في تعزيز دقة نموذج MRC في المهام التالية (downstream) عبر مجموعة واسعة من المجموعات، مثل SQuAD-v1.1، v2.0، وKorQuAD، دون الحاجة إلى أي تعديل على النماذج الحالية لـ MRC. وأخيرًا، تُبرز تجاربنا أن طريقة عملنا تبرز بشكل خاص عندما تكون كمية بيانات التدريب محدودة، سواء في مرحلة التدريب المسبق أو في مهام التدريب التالية (downstream) لـ MRC.