العلوم الحدودية: تقييم قدرة الذكاء الاصطناعي على أداء المهام العلمية على مستوى الخبير
العلوم الحدودية: تقييم قدرة الذكاء الاصطناعي على أداء المهام العلمية على مستوى الخبير
Miles Wang Joy Jiao Neil Chowdhury Ethan Chang Tejal Patwardhan
Abstract
نقدّم "FrontierScience"، وهو معيار تقييم يُقيّم قدرات الذكاء الاصطناعي في التفكير العلمي على مستوى الخبراء. يتكوّن FrontierScience من نوعين رئيسيين: (1) المنافسة (Olympiad)، الذي يحتوي على مسائل من المسابقات الدولية (على مستوى IPhO، IChO، وIBO)، و(2) البحث (Research)، الذي يضم مسائل مفتوحة على مستوى دكتوراه، تمثل مسائل فرعية تمثل التحديات الحقيقية في البحث العلمي. يتكوّن FrontierScience بشكل إجمالي من مئات الأسئلة (160 سؤالًا في المجموعة الذهبية المفتوحة المصدر)، وتغطي مجالات فرعية في الفيزياء والكيمياء والبيولوجيا، بدءًا من الديناميكا الكهرومغناطيسية الكمية ووصولًا إلى الكيمياء العضوية الاصطناعية. وقد أدى التقدّم الأخير في النماذج إلى استنفاد القدرات الحالية في المعايير العلمية الحالية، التي تعتمد غالبًا على أسئلة معرفية متعددة الخيارات أو معلومات تم نشرها مسبقًا. على النقيض من ذلك، جميع مسائل المنافسة تم إنتاجها أصلًا من قبل حائزي ميداليات المسابقات الدولية وأساتذة الفرق الوطنية، لضمان معايير الصعوبة والأصالة والدقة фактичесية. كما تم كتابة جميع مسائل البحث وتحقق منها من قبل علماء حاصلين على درجة الدكتوراه (طلاب دكتوراه، باحثين ما بعد الدكتوراه، أو أستاذة جامعية). وبالنسبة لمسائل البحث، قمنا أيضًا بتطوير هيكل تقييم مبني على معايير دقيقة (rubric-based) لتقييم قدرات النموذج على مدار عملية حل مهمة بحثية، بدلًا من التقييم بناءً على إجابة منفردة. في التقييمات الأولية لعدة نماذج رائدة، ظهر نموذج GPT-5.2 كأفضل نموذج أداءً على FrontierScience، حيث حقق 77% في مجموعة مسائل المنافسة، و25% في مجموعة مسائل البحث.
Build AI with AI
From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.