مجموعة بيانات تقييم مهام البحث الاستدلالي من FrontierScience
FrontierScience هي مجموعة بيانات لتقييم الاستدلال ومهام البحث العلمي، وقد أصدرتها OpenAI في عام 2025. يتم نشر أوراق بحثية ذات صلة في FrontierScience.تقييم قدرة الذكاء الاصطناعي على أداء المهام العلمية على مستوى الخبراءالهدف هو التقييم المنهجي لقدرات النماذج الكبيرة في التفكير العلمي على مستوى الخبراء والمهام الفرعية البحثية.
تستخدم مجموعة البيانات هذه آلية تصميم "إنشاء الخبراء + هيكل مهمة من طبقتين + آلية تسجيل تلقائية"، وتنقسم إلى مجموعتين فرعيتين، تتوافقان مع نوعين من القدرات: التفكير الدقيق المغلق والتفكير البحثي العلمي المفتوح.
- صُممت مجموعة بيانات الأولمبياد في الأصل من قِبل الفائزين بالميداليات ومدربي المنتخبات الوطنية في الأولمبياد الدولية للفيزياء والكيمياء والأحياء. وتُضاهي صعوبة الأسئلة صعوبة المسابقات الدولية الكبرى مثل أولمبياد الفيزياء الدولي (IPhO) وأولمبياد الكيمياء الدولي (IChO) وأولمبياد الأحياء الدولي (IBO). وتركز على مهام الاستدلال ذات الإجابات القصيرة، وتتطلب من النموذج إخراج قيمة عددية واحدة، أو تعبير جبري، أو مصطلح بيولوجي يمكن مطابقته بشكل تقريبي، وذلك لضمان إمكانية التحقق من النتائج واستقرار التقييم الآلي.
- مجموعة بيانات البحث من إعداد طلاب الدكتوراه، وزملاء ما بعد الدكتوراه، والأساتذة، وغيرهم من الباحثين النشطين. تحاكي الأسئلة مشاكل فرعية قد تُصادف في البحث العلمي الحقيقي، وتغطي المجالات الرئيسية الثلاثة: الفيزياء، والكيمياء، وعلم الأحياء. يُرفق كل سؤال بدرجة تفصيلية من 10 نقاط لتقييم أداء النموذج في عدة جوانب رئيسية، تشمل افتراضات النمذجة، ومسارات الاستدلال، والاستنتاجات الوسيطة، بالإضافة إلى صحة الإجابة.
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.