الاستجابة للأسئلة في المجال المفتوح باستخدام التقدير التغايري

أثبتت النماذج المعززة بالاسترجاع فعاليتها في مهام معالجة اللغة الطبيعية، ومع ذلك لا تزال هناك نقص في الأبحاث المتعلقة بتحسينها باستخدام الاستنتاج التغايري. نقدم إطار عمل VOD (الذي يُعرف بـ "النطاق المفتوح التغايري") لتدريب وتقدير النماذج المعززة بالاسترجاع بشكل متكامل، مع التركيز على الإجابة على الأسئلة في النطاق المفتوح ونمذجة اللغة. يعتمد هدف VOD على تقدير مُعدّل ذاتيًا للحد التغايري لريني، والذي يقرب احتمال الملاءمة لل任務 (المجال المُحَدَّد)، ويُقاس باستخدام عينات مستمدة من توزيع عينة مساعِد (مُسترجع مُخزَّن و/أو توزيع احتمالي تقريبي). يظل هذا الإطار قابلاً للحساب، حتى بالنسبة لتوزيعات المسترجع المحددة على مجموعات بيانات ضخمة. نُظهر مرونة VOD من خلال تدريب نماذج BERT ذات الحجم المتوسط (reader-retriever) على أسئلة امتحانات طبية متعددة الخيارات. على مجموعة بيانات MedMCQA، تفوقنا على نموذج Med-PaLM المُعدّل للنطاق بفارق +5.3%، رغم استخدامنا لعدد من المعاملات أقل بـ 2.500 مرة. كما حقق نموذجنا المعزز بالاسترجاع، BioLinkBERT، نسبة 62.9% على MedMCQA و55.0% على MedQA-USMLE. وأخيرًا، نُظهر فعالية المكوّن المسترجع الذي تم تعلمه في سياق البحث الدلالي الطبي.