HyperAI

مجموعة اختبار توليد تحسين استرجاع FRAMES-benchmark

مساعدة التنزيل

* هذه المجموعة من البيانات تدعم الاستخدام عبر الإنترنت.انقر هنا للقفز.

FRAMES-benchmark عبارة عن مجموعة بيانات تقييم شاملة أصدرتها Google في عام 2024، والتي تهدف إلى اختبار قدرات أنظمة Retrieval-Augmented Generation (RAG) من حيث الواقعية ودقة الاسترجاع والمنطق. نتائج الورقة ذات الصلة هيالحقيقة، والاسترجاع، والسبب: تقييم موحد للجيل المعزز بالاسترجاعتحتوي مجموعة البيانات على 824 سؤالاً صعباً متعدد القفزات، يتطلب الحصول على معلومات من مقالتين إلى 15 مقالة من ويكيبيديا. تغطي الأسئلة مواضيع مثل التاريخ والرياضة والعلوم والحيوانات والصحة وغيرها، وكل سؤال مُصنّف حسب نوع الاستدلال، مثل: العددي، والجدولي، والقيود المتعددة، والزمني، وما بعد المعالجة. كما توفر مجموعة البيانات الإجابة الصحيحة ومقالة ويكيبيديا ذات الصلة لكل سؤال.

تتضمن الميزات الرئيسية لمجموعة بيانات FRAMES اختبار قدرات RAG الشاملة، والتي تتطلب دمج المعلومات من مصادر متعددة، وتحتوي على تفكير معقد وتوضيح زمني، كما أنها مصممة لتكون صعبة على نماذج اللغة الحديثة. يمكن استخدام مجموعة البيانات لتقييم أداء أنظمة RAG، ومعايرة قدرات الواقعية والاستدلال في نماذج اللغة، وتطوير واختبار استراتيجيات الاسترجاع متعددة القفزات.