HyperAIHyperAI

Command Palette

Search for a command to run...

مجموعة بيانات تقييم الإجابة على الأسئلة الواقعية الموجزة من SimpleQA

SimpleQA هي مجموعة بيانات لتقييم دقة المعلومات لنماذج اللغة الكبيرة، وقد أصدرتها OpenAI في عام 2024. وتشمل الأبحاث ذات الصلة... قياس الواقعية المختصرة في نماذج اللغة الكبيرةالهدف هو تقييم مدى صحة النموذج في الإجابة على أسئلة واقعية قصيرة وواضحة وقابلة للتحقق بشكل فريد، مع تجنب التداخل الناتج عن التفكير المعقد أو الأحكام الذاتية في نتائج التقييم.

تم تحديث مجموعة البيانات، وتحتوي الآن على 4326 سؤالًا نموذجيًا، تغطي مواضيع متعددة تشمل العلوم والتكنولوجيا والفنون والترفيه. من بين هذه الأسئلة، يشكل 4321 سؤالًا مجموعة الاختبار الرسمية، بينما تُستخدم 5 أسئلة للتقييم المحدود. لكل سؤال إجابة معيارية فريدة لا جدال فيها، تم التحقق منها من قبل مدربين بشريين مستقلين من مصادر موثوقة لضمان الدقة وإمكانية التحقق. كما تم تصنيف كل عينة في مجموعة البيانات بموضوع السؤال ونوع الإجابة (مثل: شخص، رقم، أو موقع)، بالإضافة إلى روابط داعمة لتسهيل التقييم الدقيق وتحليل النتائج.

بالمقارنة مع المعايير الواقعية السابقة، يُعدّ SimpleQA أكثر صعوبةً بكثير، وحتى دقة أحدث النماذج على هذه المجموعة من البيانات محدودة بشكل واضح. لذلك، يمكن استخدامه كأداة اختبار مكثفة لتقييم موثوقية النماذج من الناحية الواقعية.

Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp