توليد أزواج أسئلة وأجوبة متنوعة وموحدة من السياقات باستخدام النماذج التوافقية الهرمية القائمة على زيادة المعلومات

من أبرز التحديات في مجال الإجابة على الأسئلة (QA) هو نقص البيانات المصنفة، حيث أن الحصول على أزواج سؤال-إجابة (QA) لمجال نصي مستهدف من خلال التسمية البشرية يعد مكلفاً. طريقة بديلة لمعالجة هذه المشكلة هي استخدام أزواج سؤال-إجابة تُولَّد تلقائياً إما من سياق المشكلة أو من كميات كبيرة من النصوص غير المنظمة (مثل ويكيبيديا). في هذا البحث، نقترح استخدام مولد هرمي مشروط ذاتي الترميز مع تحويل متغير (HCVAE) لتوليد أزواج سؤال-إجابة بناءً على النصوص غير المنظمة كسياقات، مع تعظيم المعلومات المتبادلة بين الأزواج المولدة للتأكد من اتساقها. قمنا بتحقق نموذجنا الذي يُدعى مولد المعلومات الهرمي المشروط ذاتي الترميز مع تحويل متغير (Info-HCVAE) على عدة مجموعات بيانات معيارية من خلال تقييم أداء نموذج الإجابة على الأسئلة (BERT-base) باستخدام فقط الأزواج المولدة (تقييم QA-مستند) أو باستخدام كلٍ من الأزواج المولدة والأزواج التي تم تصنيفها بواسطة البشر (تعلم شبه إشرافي) للتدريب، مقابل النماذج الأساسية الأكثر تقدماً. أظهرت النتائج أن نموذجنا حقق مكاسب في الأداء ملحوظة على جميع النماذج الأساسية في كلا المهمتين، باستخدام جزء صغير فقط من البيانات للتدريب.