HyperAIHyperAI

Command Palette

Search for a command to run...

العلوم الحدودية: تقييم قدرة الذكاء الاصطناعي على أداء المهام العلمية على مستوى الخبير

Miles Wang Joy Jiao Neil Chowdhury Ethan Chang Tejal Patwardhan

الملخص

نقدّم "FrontierScience"، وهو معيار تقييم يُقيّم قدرات الذكاء الاصطناعي في التفكير العلمي على مستوى الخبراء. يتكوّن FrontierScience من نوعين رئيسيين: (1) المنافسة (Olympiad)، الذي يحتوي على مسائل من المسابقات الدولية (على مستوى IPhO، IChO، وIBO)، و(2) البحث (Research)، الذي يضم مسائل مفتوحة على مستوى دكتوراه، تمثل مسائل فرعية تمثل التحديات الحقيقية في البحث العلمي. يتكوّن FrontierScience بشكل إجمالي من مئات الأسئلة (160 سؤالًا في المجموعة الذهبية المفتوحة المصدر)، وتغطي مجالات فرعية في الفيزياء والكيمياء والبيولوجيا، بدءًا من الديناميكا الكهرومغناطيسية الكمية ووصولًا إلى الكيمياء العضوية الاصطناعية. وقد أدى التقدّم الأخير في النماذج إلى استنفاد القدرات الحالية في المعايير العلمية الحالية، التي تعتمد غالبًا على أسئلة معرفية متعددة الخيارات أو معلومات تم نشرها مسبقًا. على النقيض من ذلك، جميع مسائل المنافسة تم إنتاجها أصلًا من قبل حائزي ميداليات المسابقات الدولية وأساتذة الفرق الوطنية، لضمان معايير الصعوبة والأصالة والدقة фактичесية. كما تم كتابة جميع مسائل البحث وتحقق منها من قبل علماء حاصلين على درجة الدكتوراه (طلاب دكتوراه، باحثين ما بعد الدكتوراه، أو أستاذة جامعية). وبالنسبة لمسائل البحث، قمنا أيضًا بتطوير هيكل تقييم مبني على معايير دقيقة (rubric-based) لتقييم قدرات النموذج على مدار عملية حل مهمة بحثية، بدلًا من التقييم بناءً على إجابة منفردة. في التقييمات الأولية لعدة نماذج رائدة، ظهر نموذج GPT-5.2 كأفضل نموذج أداءً على FrontierScience، حيث حقق 77% في مجموعة مسائل المنافسة، و25% في مجموعة مسائل البحث.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
العلوم الحدودية: تقييم قدرة الذكاء الاصطناعي على أداء المهام العلمية على مستوى الخبير | مستندات | HyperAI