UnitedQA: نهج هجين للإجابة على الأسئلة في المجال المفتوح

حتى الآن، يركّز معظم العمل الحديث ضمن إطار الاسترجاع-القارئ (retrieval-reader) للأسئلة والإجابات في مجال مفتوح على إما قارئ استخلاص (extractive) أو قارئ توليد (generative) بشكل منفصل. في هذه الورقة، ندرس نهجًا هجينًا يُستفيد من مزايا كلا النموذجين معًا. نطبّق تقنيات جديدة لتعزيز كل من القارئ الاستخلاصي والقارئ التوليدي، اللذين يُبنىان على نماذج لغة عصبية مُدرّبة مسبقًا حديثًا، ونجد أن طرق التدريب المناسبة يمكن أن تُحدث تحسينًا كبيرًا مقارنةً بالنماذج السابقة الأفضل في مجالها. نُظهر أن النهج الهجين البسيط الناتج عن دمج الإجابات الناتجة من كلا القارئين يمكنه استغلال الفوائد الكامنة في استراتيجيات استخلاص الإجابات والاستنتاج التوليدي بكفاءة، ويتفوّق على النماذج الفردية وكذلك على المجموعات المتجانسة (homogeneous ensembles). ويتفوّق نهجنا على النماذج السابقة الأفضل في مجالها بـ 3.3 نقطة و2.7 نقطة على التوالي في مقياس "التطابق الدقيق" (exact match) على مجموعتي بيانات NaturalQuestions وTriviaQA.