منذ 2 أشهر

الملخص

نقدّم "FrontierScience"، وهو معيار تقييم يُقيّم قدرات الذكاء الاصطناعي في التفكير العلمي على مستوى الخبراء. يتكوّن FrontierScience من نوعين رئيسيين: (1) المنافسة (Olympiad)، الذي يحتوي على مسائل من المسابقات الدولية (على مستوى IPhO، IChO، وIBO)، و(2) البحث (Research)، الذي يضم مسائل مفتوحة على مستوى دكتوراه، تمثل مسائل فرعية تمثل التحديات الحقيقية في البحث العلمي. يتكوّن FrontierScience بشكل إجمالي من مئات الأسئلة (160 سؤالًا في المجموعة الذهبية المفتوحة المصدر)، وتغطي مجالات فرعية في الفيزياء والكيمياء والبيولوجيا، بدءًا من الديناميكا الكهرومغناطيسية الكمية ووصولًا إلى الكيمياء العضوية الاصطناعية. وقد أدى التقدّم الأخير في النماذج إلى استنفاد القدرات الحالية في المعايير العلمية الحالية، التي تعتمد غالبًا على أسئلة معرفية متعددة الخيارات أو معلومات تم نشرها مسبقًا. على النقيض من ذلك، جميع مسائل المنافسة تم إنتاجها أصلًا من قبل حائزي ميداليات المسابقات الدولية وأساتذة الفرق الوطنية، لضمان معايير الصعوبة والأصالة والدقة фактичесية. كما تم كتابة جميع مسائل البحث وتحقق منها من قبل علماء حاصلين على درجة الدكتوراه (طلاب دكتوراه، باحثين ما بعد الدكتوراه، أو أستاذة جامعية). وبالنسبة لمسائل البحث، قمنا أيضًا بتطوير هيكل تقييم مبني على معايير دقيقة (rubric-based) لتقييم قدرات النموذج على مدار عملية حل مهمة بحثية، بدلًا من التقييم بناءً على إجابة منفردة. في التقييمات الأولية لعدة نماذج رائدة، ظهر نموذج GPT-5.2 كأفضل نموذج أداءً على FrontierScience، حيث حقق 77% في مجموعة مسائل المنافسة، و25% في مجموعة مسائل البحث.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Miles Wang Joy Jiao Neil Chowdhury Ethan Chang Tejal Patwardhan

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Miles Wang Joy Jiao Neil Chowdhury Ethan Chang Tejal Patwardhan

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Miles Wang Joy Jiao Neil Chowdhury Ethan Chang Tejal Patwardhan

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

العلوم الحدودية: تقييم قدرة الذكاء الاصطناعي على أداء المهام العلمية على مستوى الخبير

Miles Wang Joy Jiao Neil Chowdhury Ethan Chang Tejal Patwardhan

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

العلوم الحدودية: تقييم قدرة الذكاء الاصطناعي على أداء المهام العلمية على مستوى الخبير

Miles Wang Joy Jiao Neil Chowdhury Ethan Chang Tejal Patwardhan

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

العلوم الحدودية: تقييم قدرة الذكاء الاصطناعي على أداء المهام العلمية على مستوى الخبير

Miles Wang Joy Jiao Neil Chowdhury Ethan Chang Tejal Patwardhan

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters