@misc{krishna2024factfetchreasonunified, title={Fact, Fetch, and Reason: A Unified Evaluation of Retrieval-Augmented Generation}, author={Satyapriya Krishna and Kalpesh Krishna and Anhad Mohananey and Steven Schwarcz and Adam Stambler and Shyam Upadhyay and Manaal Faruqui}, year={2024}, eprint={2409.12941}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2409.12941}, }

استخدم مجموعة البيانات هذه ناقش على Discord

التاريخ

منذ 2 أعوام

المؤسسة

رابط الورقة البحثية

arxiv.org

الوسوم

توليد مدعوم بالاسترجاع

LLM

معالجة اللغة الطبيعية

الاستدلال

المعايير

FRAMES-benchmark عبارة عن مجموعة بيانات تقييم شاملة أصدرتها Google في عام 2024، والتي تهدف إلى اختبار قدرات أنظمة Retrieval-Augmented Generation (RAG) من حيث الواقعية ودقة الاسترجاع والمنطق. نتائج الورقة ذات الصلة هيالحقيقة، والاسترجاع، والسبب: تقييم موحد للجيل المعزز بالاسترجاعتحتوي مجموعة البيانات على 824 سؤالاً صعباً متعدد القفزات، يتطلب الحصول على معلومات من مقالتين إلى 15 مقالة من ويكيبيديا. تغطي الأسئلة مواضيع مثل التاريخ والرياضة والعلوم والحيوانات والصحة وغيرها، وكل سؤال مُصنّف حسب نوع الاستدلال، مثل: العددي، والجدولي، والقيود المتعددة، والزمني، وما بعد المعالجة. كما توفر مجموعة البيانات الإجابة الصحيحة ومقالة ويكيبيديا ذات الصلة لكل سؤال. تتضمن الميزات الرئيسية لمجموعة بيانات FRAMES اختبار قدرات RAG الشاملة، والتي تتطلب دمج المعلومات من مصادر متعددة، وتحتوي على تفكير معقد وتوضيح زمني، كما أنها مصممة لتكون صعبة على نماذج اللغة الحديثة. يمكن استخدام مجموعة البيانات لتقييم أداء أنظمة RAG، ومعايرة قدرات الواقعية والاستدلال في نماذج اللغة، وتطوير واختبار استراتيجيات الاسترجاع متعددة القفزات.

الاستشهاد

@misc{krishna2024factfetchreasonunified,
title={Fact, Fetch, and Reason: A Unified Evaluation of Retrieval-Augmented Generation},
author={Satyapriya Krishna and Kalpesh Krishna and Anhad Mohananey and Steven Schwarcz and Adam Stambler and Shyam Upadhyay and Manaal Faruqui},
year={2024},
eprint={2409.12941},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2409.12941},
}

تم المساهمة بهذه المجموعة من البيانات من قبل مستخدمي المجتمع وهي مخصصة للأغراض التعليمية والإعلامية فقط. إذا كان أي محتوى ينطوي على انتهاك لحقوق النشر، يرجى الاتصال بنا على [email protected] للمراجعة والإزالة الفورية.

مجموعات البيانات ذات الصلة

مجموعة بيانات مرجعية لفهم تغيرات المناطق عن بعد من مركز أبحاث الاستشعار عن بعد (RSRCC)

منذ 8 أيام

مجموعة بيانات PanScale للاستشعار عن بعد لتحسين وضوح الألوان

منذ 2 أشهر

مجموعة بيانات تقييم قدرة تحليل المستندات في ParseBench

منذ 2 أشهر

مجموعة بيانات تقييم قدرة تحليل الوسائط المتعددة OmniParsingBench

منذ 8 أيام

مجموعة بيانات MDPBench المعيارية لتحليل المستندات متعددة اللغات

منذ 8 أيام

مجموعة بيانات نموذج العالم

منذ 2 أشهر

مجموعة بيانات أسئلة الصوت البسيطة

منذ 2 أشهر

مجموعة بيانات حوار التعلم لأدوات ToolACE المعقدة

منذ 3 أشهر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

HyperAI

استخدم مجموعة البيانات هذه ناقش على Discord

التاريخ

منذ 2 أعوام

المؤسسة

رابط الورقة البحثية

arxiv.org

الوسوم

توليد مدعوم بالاسترجاع

LLM

معالجة اللغة الطبيعية

الاستدلال

المعايير