HyperAIHyperAI

Command Palette

Search for a command to run...

Console

مجموعة بيانات تقييم مهام البحث الاستدلالي من FrontierScience

انضم إلى مجتمع Discord

التاريخ

منذ يوم واحد

المؤسسة

أوبن أيه آي

رابط الورقة

7a783933efcc

الترخيص

Apache 2.0

FrontierScience هي مجموعة بيانات لتقييم الاستدلال ومهام البحث العلمي، وقد أصدرتها OpenAI في عام 2025. يتم نشر أوراق بحثية ذات صلة في FrontierScience.تقييم قدرة الذكاء الاصطناعي على أداء المهام العلمية على مستوى الخبراءالهدف هو التقييم المنهجي لقدرات النماذج الكبيرة في التفكير العلمي على مستوى الخبراء والمهام الفرعية البحثية.

تستخدم مجموعة البيانات هذه آلية تصميم "إنشاء الخبراء + هيكل مهمة من طبقتين + آلية تسجيل تلقائية"، وتنقسم إلى مجموعتين فرعيتين، تتوافقان مع نوعين من القدرات: التفكير الدقيق المغلق والتفكير البحثي العلمي المفتوح.

  • صُممت مجموعة بيانات الأولمبياد في الأصل من قِبل الفائزين بالميداليات ومدربي المنتخبات الوطنية في الأولمبياد الدولية للفيزياء والكيمياء والأحياء. وتُضاهي صعوبة الأسئلة صعوبة المسابقات الدولية الكبرى مثل أولمبياد الفيزياء الدولي (IPhO) وأولمبياد الكيمياء الدولي (IChO) وأولمبياد الأحياء الدولي (IBO). وتركز على مهام الاستدلال ذات الإجابات القصيرة، وتتطلب من النموذج إخراج قيمة عددية واحدة، أو تعبير جبري، أو مصطلح بيولوجي يمكن مطابقته بشكل تقريبي، وذلك لضمان إمكانية التحقق من النتائج واستقرار التقييم الآلي.
  • مجموعة بيانات البحث من إعداد طلاب الدكتوراه، وزملاء ما بعد الدكتوراه، والأساتذة، وغيرهم من الباحثين النشطين. تحاكي الأسئلة مشاكل فرعية قد تُصادف في البحث العلمي الحقيقي، وتغطي المجالات الرئيسية الثلاثة: الفيزياء، والكيمياء، وعلم الأحياء. يُرفق كل سؤال بدرجة تفصيلية من 10 نقاط لتقييم أداء النموذج في عدة جوانب رئيسية، تشمل افتراضات النمذجة، ومسارات الاستدلال، والاستنتاجات الوسيطة، بالإضافة إلى صحة الإجابة.

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية بالذكاء الاصطناعي
وحدات معالجة الرسوميات الجاهزة للاستخدام
أفضل تسعير

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp