التاريخ

منذ 6 أشهر

المؤسسة

رابط الورقة البحثية

الوسوم

SimpleQA هي مجموعة بيانات لتقييم دقة المعلومات لنماذج اللغة الكبيرة، وقد أصدرتها OpenAI في عام 2024. وتشمل الأبحاث ذات الصلة... قياس الواقعية المختصرة في نماذج اللغة الكبيرةالهدف هو تقييم مدى صحة النموذج في الإجابة على أسئلة واقعية قصيرة وواضحة وقابلة للتحقق بشكل فريد، مع تجنب التداخل الناتج عن التفكير المعقد أو الأحكام الذاتية في نتائج التقييم. تم تحديث مجموعة البيانات، وتحتوي الآن على 4326 سؤالًا نموذجيًا، تغطي مواضيع متعددة تشمل العلوم والتكنولوجيا والفنون والترفيه. من بين هذه الأسئلة، يشكل 4321 سؤالًا مجموعة الاختبار الرسمية، بينما تُستخدم 5 أسئلة للتقييم المحدود. لكل سؤال إجابة معيارية فريدة لا جدال فيها، تم التحقق منها من قبل مدربين بشريين مستقلين من مصادر موثوقة لضمان الدقة وإمكانية التحقق. كما تم تصنيف كل عينة في مجموعة البيانات بموضوع السؤال ونوع الإجابة (مثل: شخص، رقم، أو موقع)، بالإضافة إلى روابط داعمة لتسهيل التقييم الدقيق وتحليل النتائج. بالمقارنة مع المعايير الواقعية السابقة، يُعدّ SimpleQA أكثر صعوبةً بكثير، وحتى دقة أحدث النماذج على هذه المجموعة من البيانات محدودة بشكل واضح. لذلك، يمكن استخدامه كأداة اختبار مكثفة لتقييم موثوقية النماذج من الناحية الواقعية.

تم المساهمة بهذه المجموعة من البيانات من قبل مستخدمي المجتمع وهي مخصصة للأغراض التعليمية والإعلامية فقط. إذا كان أي محتوى ينطوي على انتهاك لحقوق النشر، يرجى الاتصال بنا على [email protected] للمراجعة والإزالة الفورية.

مجموعات البيانات ذات الصلة

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار