Command Palette
Search for a command to run...
مجموعة بيانات تقييم الإجابة على الأسئلة الواقعية الموجزة من SimpleQA
SimpleQA هي مجموعة بيانات لتقييم دقة المعلومات لنماذج اللغة الكبيرة، وقد أصدرتها OpenAI في عام 2024. وتشمل الأبحاث ذات الصلة... قياس الواقعية المختصرة في نماذج اللغة الكبيرةالهدف هو تقييم مدى صحة النموذج في الإجابة على أسئلة واقعية قصيرة وواضحة وقابلة للتحقق بشكل فريد، مع تجنب التداخل الناتج عن التفكير المعقد أو الأحكام الذاتية في نتائج التقييم.
تم تحديث مجموعة البيانات، وتحتوي الآن على 4326 سؤالًا نموذجيًا، تغطي مواضيع متعددة تشمل العلوم والتكنولوجيا والفنون والترفيه. من بين هذه الأسئلة، يشكل 4321 سؤالًا مجموعة الاختبار الرسمية، بينما تُستخدم 5 أسئلة للتقييم المحدود. لكل سؤال إجابة معيارية فريدة لا جدال فيها، تم التحقق منها من قبل مدربين بشريين مستقلين من مصادر موثوقة لضمان الدقة وإمكانية التحقق. كما تم تصنيف كل عينة في مجموعة البيانات بموضوع السؤال ونوع الإجابة (مثل: شخص، رقم، أو موقع)، بالإضافة إلى روابط داعمة لتسهيل التقييم الدقيق وتحليل النتائج.
بالمقارنة مع المعايير الواقعية السابقة، يُعدّ SimpleQA أكثر صعوبةً بكثير، وحتى دقة أحدث النماذج على هذه المجموعة من البيانات محدودة بشكل واضح. لذلك، يمكن استخدامه كأداة اختبار مكثفة لتقييم موثوقية النماذج من الناحية الواقعية.
Build AI with AI
From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.