HyperAIHyperAI

Command Palette

Search for a command to run...

Console

العلوم الحدودية: تقييم قدرة الذكاء الاصطناعي على أداء المهام العلمية على مستوى الخبير

Miles Wang Joy Jiao Neil Chowdhury Ethan Chang Tejal Patwardhan

Abstract

نقدّم "FrontierScience"، وهو معيار تقييم يُقيّم قدرات الذكاء الاصطناعي في التفكير العلمي على مستوى الخبراء. يتكوّن FrontierScience من نوعين رئيسيين: (1) المنافسة (Olympiad)، الذي يحتوي على مسائل من المسابقات الدولية (على مستوى IPhO، IChO، وIBO)، و(2) البحث (Research)، الذي يضم مسائل مفتوحة على مستوى دكتوراه، تمثل مسائل فرعية تمثل التحديات الحقيقية في البحث العلمي. يتكوّن FrontierScience بشكل إجمالي من مئات الأسئلة (160 سؤالًا في المجموعة الذهبية المفتوحة المصدر)، وتغطي مجالات فرعية في الفيزياء والكيمياء والبيولوجيا، بدءًا من الديناميكا الكهرومغناطيسية الكمية ووصولًا إلى الكيمياء العضوية الاصطناعية. وقد أدى التقدّم الأخير في النماذج إلى استنفاد القدرات الحالية في المعايير العلمية الحالية، التي تعتمد غالبًا على أسئلة معرفية متعددة الخيارات أو معلومات تم نشرها مسبقًا. على النقيض من ذلك، جميع مسائل المنافسة تم إنتاجها أصلًا من قبل حائزي ميداليات المسابقات الدولية وأساتذة الفرق الوطنية، لضمان معايير الصعوبة والأصالة والدقة фактичесية. كما تم كتابة جميع مسائل البحث وتحقق منها من قبل علماء حاصلين على درجة الدكتوراه (طلاب دكتوراه، باحثين ما بعد الدكتوراه، أو أستاذة جامعية). وبالنسبة لمسائل البحث، قمنا أيضًا بتطوير هيكل تقييم مبني على معايير دقيقة (rubric-based) لتقييم قدرات النموذج على مدار عملية حل مهمة بحثية، بدلًا من التقييم بناءً على إجابة منفردة. في التقييمات الأولية لعدة نماذج رائدة، ظهر نموذج GPT-5.2 كأفضل نموذج أداءً على FrontierScience، حيث حقق 77% في مجموعة مسائل المنافسة، و25% في مجموعة مسائل البحث.


Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
العلوم الحدودية: تقييم قدرة الذكاء الاصطناعي على أداء المهام العلمية على مستوى الخبير | Papers | HyperAI