HyperAIHyperAI

Command Palette

Search for a command to run...

il y a 2 mois

CMPhysBench : un benchmark pour évaluer les grands modèles linguistiques en physique de la matière condensée

CMPhysBench : un benchmark pour évaluer les grands modèles linguistiques en physique de la matière condensée

Résumé

Nous présentons CMPhysBench, un nouveau benchmark conçu pour évaluer la maîtrise des grands modèles linguistiques (LLM) en physique de la matière condensée. CMPhysBench se compose de plus de 520 questions de niveau master, soigneusement sélectionnées, couvrant à la fois des sous-champs représentatifs et les cadres théoriques fondamentaux de la physique de la matière condensée, tels que le magnétisme, la supraconductivité, les systèmes fortement corrélés, etc. Afin d’assurer une compréhension approfondie du processus de résolution de problèmes, nous nous concentrons exclusivement sur les problèmes de calcul, exigeant que les LLM génèrent indépendamment des solutions complètes. Par ailleurs, en exploitant une représentation arborescente des expressions, nous introduisons le score d’erreur d’édition d’expression évolutive (Scalable Expression Edit Distance, SEED), qui permet d’accorder une correction partielle fine (non binaire) et fournit une évaluation plus précise de la similarité entre la prédiction et la solution de référence. Nos résultats montrent que même les meilleurs modèles, comme Grok-4, atteignent uniquement un score moyen SEED de 36 et une précision de 28 % sur CMPhysBench, mettant en évidence un écart significatif de capacité, particulièrement dans ce domaine pratique et aux frontières de la recherche, par rapport à la physique traditionnelle. Le code et les données sont disponibles publiquement à l’adresse suivante : https://github.com/CMPhysBench/CMPhysBench.

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
CMPhysBench : un benchmark pour évaluer les grands modèles linguistiques en physique de la matière condensée | Articles de recherche | HyperAI