RAVine: تقييم متناسب مع الواقع لبحث الوكالة

البحث العاجي، وهو نموذج أكثر استقلالية وتكيفًا لتعزيز الاسترجاع، يُحفِّز تطور أنظمة البحث الذكية. ومع ذلك، تفشل الإطارات الحالية لتقييم الأداء في التوافق مع أهداف البحث العاجي. أولاً، غالبًا ما تبتعد الاستفسارات المعقدة التي تُستخدم في المعايير الحالية عن سيناريوهات البحث الواقعية للمستخدمين. ثانيًا، تميل الطرق السابقة إلى إدخال ضوضاء عند استخراج الحقيقة المطلقة (ground truth) لإجراء التقييمات الشاملة، مما يؤدي إلى تقييمات مُغيَّبة على مستوى مفصل. ثالثًا، تركز معظم الإطارات الحالية فقط على جودة الإجابات النهائية، وتجاهل تقييم العملية التكرارية المُميزة للبحث العاجي. لمعالجة هذه القيود، نقترح RAVine - وهو إطار تقييم مُتوافق مع الواقع للنماذج اللغوية الكبيرة (LLMs) التي تقوم بالبحث. يركز RAVine على الاستفسارات متعددة النقاط والإجابات الموسَّعة التي تعكس أهداف المستخدم بشكل أفضل، ويدمج استراتيجية لبناء الحقيقة المطلقة القابلة للتحديد (attributable ground truth) لتحسين دقة التقييم المفصل. بالإضافة إلى ذلك، يُحلِّل RAVine تفاعل النموذج مع أدوات البحث خلال العملية التكرارية، ويأخذ في الاعتبار عوامل الكفاءة. قمنا بإجراء اختبارات لسلسلة من النماذج باستخدام RAVine واستخلصنا عدة ملاحظات، نأمل أن تساهم هذه الملاحظات في تحسين تطوير أنظمة البحث العاجي. يمكن الوصول إلى الكود والبيانات من خلال الرابط التالي: https://github.com/SwordFaith/RAVine.