RocketQA: نهج تدريب مُحسَّن للبحث الكثيف عن الفقرات في إجابة الأسئلة في النطاق المفتوح

في الإجابة على الأسئلة في المجال المفتوح، أصبح استرجاع الفقرات الكثيفة (Dense Passage Retrieval) نموذجًا جديدًا لاسترجاع الفقرات ذات الصلة للعثور على الإجابات. عادةً ما يتم اعتماد بنية المُشفر المزدوج (Dual-Encoder) لتعلم تمثيلات كثيفة للأسئلة والفقرات بهدف التوافق الدلالي. ومع ذلك، يُعد من الصعب تدريب المُشفر المزدوج بشكل فعّال بسبب التحديات التي تشمل الفجوة بين التدريب والاستنتاج، وجود أمثلة إيجابية غير مُعلمة، وندرة بيانات التدريب. ولحل هذه التحديات، نقترح منهجية تدريب مُحسَّنة تُسمى RocketQA، بهدف تحسين استرجاع الفقرات الكثيفة. ونُقدِّم ثلاث مساهمات تقنية رئيسية في RocketQA، وهي: السلبيات عبر الحزمة (Cross-batch negatives)، والسلبيات الصارمة المُنظَّفة (Denoised hard negatives)، وتعزيز البيانات (Data augmentation). وتُظهر نتائج التجارب أن RocketQA تتفوّق بشكل ملحوظ على النماذج السابقة المُتقدمة في مجال الأداء على كلا المجموعتين: MSMARCO وNatural Questions. كما أجرينا تجارب واسعة لفحص فعالية الاستراتيجيات الثلاث في RocketQA. علاوة على ذلك، نُظهر أن أداء أنظمة الإجابة النهائية (End-to-end QA) يمكن تحسينه باستخدام مُسترجع RocketQA.