il y a 5 mois

Weida Wang Dongchen Huang Jiatong Li Tengchao Yang Ziyang Zheng Di Zhang Dong Han Benteng Chen Binzhao Luo Zhiyu Liu

Résumé

Nous présentons CMPhysBench, un nouveau benchmark conçu pour évaluer la maîtrise des grands modèles linguistiques (LLM) en physique de la matière condensée. CMPhysBench se compose de plus de 520 questions de niveau master, soigneusement sélectionnées, couvrant à la fois des sous-champs représentatifs et les cadres théoriques fondamentaux de la physique de la matière condensée, tels que le magnétisme, la supraconductivité, les systèmes fortement corrélés, etc. Afin d’assurer une compréhension approfondie du processus de résolution de problèmes, nous nous concentrons exclusivement sur les problèmes de calcul, exigeant que les LLM génèrent indépendamment des solutions complètes. Par ailleurs, en exploitant une représentation arborescente des expressions, nous introduisons le score d’erreur d’édition d’expression évolutive (Scalable Expression Edit Distance, SEED), qui permet d’accorder une correction partielle fine (non binaire) et fournit une évaluation plus précise de la similarité entre la prédiction et la solution de référence. Nos résultats montrent que même les meilleurs modèles, comme Grok-4, atteignent uniquement un score moyen SEED de 36 et une précision de 28 % sur CMPhysBench, mettant en évidence un écart significatif de capacité, particulièrement dans ce domaine pratique et aux frontières de la recherche, par rapport à la physique traditionnelle. Le code et les données sont disponibles publiquement à l’adresse suivante : https://github.com/CMPhysBench/CMPhysBench.

PDF source Voir le code

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

il y a 5 mois

Weida Wang Dongchen Huang Jiatong Li Tengchao Yang Ziyang Zheng Di Zhang Dong Han Benteng Chen Binzhao Luo Zhiyu Liu

Résumé

PDF source Voir le code

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

il y a 5 mois

Weida Wang Dongchen Huang Jiatong Li Tengchao Yang Ziyang Zheng Di Zhang Dong Han Benteng Chen Binzhao Luo Zhiyu Liu

Résumé

PDF source Voir le code

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

CMPhysBench : un benchmark pour évaluer les grands modèles linguistiques en physique de la matière condensée

Weida Wang Dongchen Huang Jiatong Li Tengchao Yang Ziyang Zheng Di Zhang Dong Han Benteng Chen Binzhao Luo Zhiyu Liu25 more

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

CMPhysBench : un benchmark pour évaluer les grands modèles linguistiques en physique de la matière condensée

Weida Wang Dongchen Huang Jiatong Li Tengchao Yang Ziyang Zheng Di Zhang Dong Han Benteng Chen Binzhao Luo Zhiyu Liu25 more

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

CMPhysBench : un benchmark pour évaluer les grands modèles linguistiques en physique de la matière condensée

Weida Wang Dongchen Huang Jiatong Li Tengchao Yang Ziyang Zheng Di Zhang Dong Han Benteng Chen Binzhao Luo Zhiyu Liu25 more

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Weida Wang Dongchen Huang Jiatong Li Tengchao Yang Ziyang Zheng Di Zhang Dong Han Benteng Chen Binzhao Luo Zhiyu Liu

Weida Wang Dongchen Huang Jiatong Li Tengchao Yang Ziyang Zheng Di Zhang Dong Han Benteng Chen Binzhao Luo Zhiyu Liu

Weida Wang Dongchen Huang Jiatong Li Tengchao Yang Ziyang Zheng Di Zhang Dong Han Benteng Chen Binzhao Luo Zhiyu Liu