HyperAIHyperAI

Command Palette

Search for a command to run...

منذ 2 أشهر

CMPhysBench: معيار لتقييم نماذج اللغة الكبيرة في فيزياء المواد المكثفة

CMPhysBench: معيار لتقييم نماذج اللغة الكبيرة في فيزياء المواد المكثفة

الملخص

نُقدِّم "CMPhysBench"، كمُعيارٍ جديدٍ مُصمَّم لتقييم كفاءة النماذج الكبيرة للغة (LLMs) في مجال الفيزياء الصلبة، والذي يتضمَّن أكثر من 520 سؤالًا مُختارة بعناية على مستوى الدراسات العليا، تغطي فروعًا تمثيلية وأسسًا نظرية جوهرية في الفيزياء الصلبة، مثل المغناطيسية، والموصلية الفائقة، والنظم القوية الترابط. ولضمان فهم عميق لعملية حل المشكلات، ركّزنا حصريًا على المسائل الحسابية، وطلبنا من النماذج الكبيرة إنتاج حلول شاملة بشكل مستقل. وفي الوقت نفسه، استخدمنا تمثيلات شجرية للتعبيرات لتقديم مقياس "المسافة المُعدَّلة للتعبير القابلة للتوسع" (SEED)، الذي يُقدِّم درجات جزئية دقيقة (غير ثنائية) ويُنتج تقييمًا أكثر دقة لتشابه التنبؤ مع القيمة الحقيقية (ground-truth). أظهرت نتائجنا أن حتى أفضل النماذج، مثل Grok-4، وصلت إلى متوسط درجة SEED قدره 36 ودقة 28% فقط في CMPhysBench، ما يُبرز فجوة كبيرة في القدرات، خصوصًا في هذا المجال العملي والمتقدم مقارنةً بالفيزياء التقليدية. يُتاح الكود والبيانات بشكل علني عبر الرابط: https://github.com/CMPhysBench/CMPhysBench.

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي
وحدات معالجة رسومات جاهزة
أفضل الأسعار
ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp