BEIR: معيار متنوع لتقييم نماذج استرجاع المعلومات بدون تدريب مسبق

تم دراسة نماذج استرجاع المعلومات العصبية الحالية غالبًا في بيئات متجانسة وضيقة، مما حدّ من التميّز في قدرتها على التعميم خارج التوزيع (OOD) بشكل كبير. ولحل هذه المشكلة، ولتمكين الباحثين من تقييم فعالية نماذجهم بشكل واسع، نقدّم "Benchmarking-IR" (BEIR)، وهو معيار تقييم قوي ومتنوع لاسترجاع المعلومات. استخدمنا اختيارًا دقيقًا لـ 18 مجموعة بيانات متاحة للعامة من مهام ونطاقات مختلفة لاسترجاع النصوص، وقمنا بتقييم 10 نماذج استرجاع متطورة حاليًا، تشمل هياكل قواعدية، ونادرة، وكثيفة، ومتداخلة في وقت لاحق، بالإضافة إلى نماذج إعادة الترتيب، على معيار BEIR. أظهرت نتائجنا أن نموذج BM25 يُعد أساسًا قويًا، في حين أن النماذج القائمة على إعادة الترتيب والتفاعل المتأخر تحقق في المتوسط أفضل الأداء في السيناريوهات الصفرية (zero-shot)، ولكن بتكاليف حسابية عالية. في المقابل، تُظهر النماذج الكثيفة والمسترجعة نادرًا كفاءة حسابية أعلى، لكنها غالبًا ما تتفوّت الأداء مقارنة بالطرق الأخرى، مما يُبرز وجود مجال كبير للتحسين في قدرتها على التعميم. نأمل أن يمكّننا هذا الإطار من تقييم وفهم أفضل للأنظمة الحالية لاسترجاع المعلومات، ويساهم في تسريع التقدّم نحو أنظمة أكثر مرونة وقابلية للتعميم في المستقبل. يُتاح BEIR للجمهور عبر الرابط التالي: https://github.com/UKPLab/beir.