استخلاص المعرفة من القارئ إلى المسترجع لأسئلة الإجابة

إن مهمة استرجاع المعلومات تمثل عنصراً أساسياً في العديد من أنظمة معالجة اللغة الطبيعية، مثل الإجابة على الأسئلة في مجالات مفتوحة. في حين اعتمدت الطرق التقليدية على ميزات تم إنشاؤها يدوياً، فقد حققت التمثيلات المستمرة القائمة على الشبكات العصبية العميقة نتائج تنافسية مؤخراً. وتمثل التحدي الرئيسي في استخدام هذه الطرق الحصول على بيانات مُعلَّمة لتدريب نموذج استرجاع المعلومات، والتي تتمحور حول أزواج من الاستفسارات والمستندات الداعمة. في هذا البحث، نقترح تقنية لتعلم نماذج استرجاع المعلومات للوظائف اللاحقة، مستوحاة من مفهوم تحويل المعرفة (Knowledge Distillation)، دون الحاجة إلى أزواج مُعلَّمة من الاستفسارات والمستندات. تعتمد طريقةنا على استخدام قيم الانتباه (Attention Scores) من نموذج قارئ، يستخدم لحل المهمة بناءً على المستندات المسترجعة، بهدف إنشاء علامات اصطناعية (Synthetic Labels) لنموذج الاسترجاع. وقد تم تقييم طريقتنا في مهمة الإجابة على الأسئلة، حيث تم تحقيق نتائج تُعد من أفضل النتائج الحالية (State-of-the-art).