HyperAIHyperAI

Command Palette

Search for a command to run...

مجموعة اختبار توليد تحسين استرجاع FRAMES-benchmark

التاريخ

منذ عام واحد

المؤسسة

جوجل

رابط الورقة البحثية

arxiv.org

انضم إلى مجتمع Discord

* هذه المجموعة من البيانات تدعم الاستخدام عبر الإنترنت.انقر هنا للقفز.

FRAMES-benchmark عبارة عن مجموعة بيانات تقييم شاملة أصدرتها Google في عام 2024، والتي تهدف إلى اختبار قدرات أنظمة Retrieval-Augmented Generation (RAG) من حيث الواقعية ودقة الاسترجاع والمنطق. نتائج الورقة ذات الصلة هيالحقيقة، والاسترجاع، والسبب: تقييم موحد للجيل المعزز بالاسترجاعتحتوي مجموعة البيانات على 824 سؤالاً صعباً متعدد القفزات، يتطلب الحصول على معلومات من مقالتين إلى 15 مقالة من ويكيبيديا. تغطي الأسئلة مواضيع مثل التاريخ والرياضة والعلوم والحيوانات والصحة وغيرها، وكل سؤال مُصنّف حسب نوع الاستدلال، مثل: العددي، والجدولي، والقيود المتعددة، والزمني، وما بعد المعالجة. كما توفر مجموعة البيانات الإجابة الصحيحة ومقالة ويكيبيديا ذات الصلة لكل سؤال.

تتضمن الميزات الرئيسية لمجموعة بيانات FRAMES اختبار قدرات RAG الشاملة، والتي تتطلب دمج المعلومات من مصادر متعددة، وتحتوي على تفكير معقد وتوضيح زمني، كما أنها مصممة لتكون صعبة على نماذج اللغة الحديثة. يمكن استخدام مجموعة البيانات لتقييم أداء أنظمة RAG، ومعايرة قدرات الواقعية والاستدلال في نماذج اللغة، وتطوير واختبار استراتيجيات الاسترجاع متعددة القفزات.

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي
وحدات معالجة رسومات جاهزة
أفضل الأسعار
ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp