HyperAIHyperAI

Command Palette

Search for a command to run...

هل نحن على الطريق الصحيح لتقييم التوليد المدعوم بالاسترجاع المستند؟

Wenxuan Shen Mingjia Wang Yaochen Wang Dongping Chen Junjie Yang Yao Wan Weiwei Lin

الملخص

تُظهر أنظمة التوليد المدعوم بالاسترجاع (RAG) التي تعتمد على النماذج الكبيرة متعددة الوسائط (MLLMs) إمكانات كبيرة في فهم المستندات المعقدة، لكن تطويرها يعاني بشكل حاسم من ضعف التقييم. فغالبًا ما تركز المعايير الحالية على جزء معين من نظام RAG المستندات، وتستخدم بيانات مُصَنَّعة تفتقر إلى معلومات صحيحة كاملة وعلامات الأدلة، مما يجعلها غير قادرة على عكس العقبات والتحديات الواقعية. ولتجاوز هذه القيود، نقدم "Double-Bench": نظام تقييم جديد على نطاق واسع، متعدد اللغات، ومتعدد الوسائط، قادر على إجراء تقييم دقيق لكل مكوّن ضمن أنظمة RAG المستندات. يتضمن هذا النظام 3,276 مستندًا (إجمالي 72,880 صفحة) و5,168 استعلامًا أحادي أو متعدد الخطوات عبر 6 لغات و4 أنواع من المستندات، مع دعم ديناميكي مبسط لمعالجة مشكلات التلوث المحتملة للبيانات. وتم تأسيس الاستعلامات على صفحات أدلة تم فحصها بشكل شامل، وتم التحقق من صحتها بواسطة خبراء بشريين لضمان أعلى مستوى من الجودة والاكتمال. وقد أظهرت تجاربنا الشاملة على 9 نماذج متقدمة لتمثيل النصوص، و4 نماذج MLLMs، و4 إطاريات نهائية (end-to-end) لأنظمة RAG المستندات، أن الفجوة بين نماذج تمثيل النصوص وتمثيل الصور تقل تدريجيًا، مما يبرز الحاجة إلى بناء نماذج استرجاع مستندات أقوى. كما كشفت نتائجنا عن مشكلة التفاؤل المفرط في الأطر الحالية لأنظمة RAG المستندات، التي تميل إلى تقديم إجابات حتى في غياب دعم أدلي بالدليل. نأمل أن يُقدّم Double-Bench المفتوح المصدر بالكامل أساسًا صارمًا للبحوث المستقبلية في مجال أنظمة RAG المتقدمة للمستندات. ونخطط لاسترجاع مجموعات بيانات حديثة ونشر معايير جديدة سنويًا.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp