هل نحن على الطريق الصحيح لتقييم التوليد المدعوم بالاسترجاع المستند؟

تُظهر أنظمة التوليد المدعوم بالاسترجاع (RAG) التي تعتمد على النماذج الكبيرة متعددة الوسائط (MLLMs) إمكانات كبيرة في فهم المستندات المعقدة، لكن تطويرها يعاني بشكل حاسم من ضعف التقييم. فغالبًا ما تركز المعايير الحالية على جزء معين من نظام RAG المستندات، وتستخدم بيانات مُصَنَّعة تفتقر إلى معلومات صحيحة كاملة وعلامات الأدلة، مما يجعلها غير قادرة على عكس العقبات والتحديات الواقعية. ولتجاوز هذه القيود، نقدم "Double-Bench": نظام تقييم جديد على نطاق واسع، متعدد اللغات، ومتعدد الوسائط، قادر على إجراء تقييم دقيق لكل مكوّن ضمن أنظمة RAG المستندات. يتضمن هذا النظام 3,276 مستندًا (إجمالي 72,880 صفحة) و5,168 استعلامًا أحادي أو متعدد الخطوات عبر 6 لغات و4 أنواع من المستندات، مع دعم ديناميكي مبسط لمعالجة مشكلات التلوث المحتملة للبيانات. وتم تأسيس الاستعلامات على صفحات أدلة تم فحصها بشكل شامل، وتم التحقق من صحتها بواسطة خبراء بشريين لضمان أعلى مستوى من الجودة والاكتمال. وقد أظهرت تجاربنا الشاملة على 9 نماذج متقدمة لتمثيل النصوص، و4 نماذج MLLMs، و4 إطاريات نهائية (end-to-end) لأنظمة RAG المستندات، أن الفجوة بين نماذج تمثيل النصوص وتمثيل الصور تقل تدريجيًا، مما يبرز الحاجة إلى بناء نماذج استرجاع مستندات أقوى. كما كشفت نتائجنا عن مشكلة التفاؤل المفرط في الأطر الحالية لأنظمة RAG المستندات، التي تميل إلى تقديم إجابات حتى في غياب دعم أدلي بالدليل. نأمل أن يُقدّم Double-Bench المفتوح المصدر بالكامل أساسًا صارمًا للبحوث المستقبلية في مجال أنظمة RAG المتقدمة للمستندات. ونخطط لاسترجاع مجموعات بيانات حديثة ونشر معايير جديدة سنويًا.