جمع وتنقية أزواج السؤال والجواب لتطبيقات الاستجابة للأسئلة غير المراقبة

أظهرت مهام الإجابة على الأسئلة (QA) نجاحًا كبيرًا بفضل توفر مجموعات بيانات ضخمة وفعالية النماذج العصبية. وقد حاولت الدراسات الحديثة تمديد هذه النجاحات إلى السياقات التي تفتقر إلى بيانات مُعلَّمة بكميات كبيرة أو تمامًا. في هذا العمل، نقدّم طريقتين لتحسين الإجابة على الأسئلة دون استخدام بيانات مُعلَّمة. أولاً، نستخرج أسئلة تختلف من حيث المفردات والتركيب النحوي من ويكيبيديا لبناء مجموعة تلقائية من أزواج الأسئلة والإجابات (تُسمّى RefQA). ثانيًا، نستفيد من نموذج الإجابة على الأسئلة لاستخراج إجابات أكثر ملاءمة، مما يُحسّن البيانات تدريجيًا عبر تكرار عملية التحسين على مجموعة RefQA. أجرينا تجارب على مجموعتي بيانات SQuAD 1.1 وNewsQA من خلال تدريب نموذج BERT بشكل دقيق دون الحاجة إلى بيانات مُعلَّمة يدويًا. وقد أظهرت نتائجنا تفوقًا كبيرًا على الطرق غير المُعلَّمة السابقة، وتنافس النماذج المُعلَّمة المبكرة. كما أثبتنا فعالية نهجنا في بيئة التعلم بعينات قليلة (few-shot learning).