Command Palette
Search for a command to run...

摘要
我们提出了CMPhysBench,这是一个专为评估大语言模型(LLMs)在凝聚态物理领域能力而设计的新型基准测试体系。CMPhysBench包含超过520道精心筛选的研究生级别题目,覆盖了凝聚态物理中的代表性子领域及基础理论框架,如磁性、超导性、强关联体系等。为确保对解题过程的深入理解,本基准仅聚焦于计算类问题,要求大语言模型独立生成完整的解题过程。同时,我们引入基于树结构的表达式表示方法,提出可扩展表达式编辑距离(Scalable Expression Edit Distance, SEED)评分机制,该机制支持细粒度(非二值化)的部分得分,能够更精确地衡量预测结果与标准答案之间的相似性。实验结果表明,即使是最先进的模型Grok-4,在CMPhysBench上的平均SEED得分也仅达到36分,准确率仅为28%,凸显了当前大语言模型在这一实践性强且处于前沿的物理领域与传统物理任务之间存在显著的能力差距。相关代码与数据集已公开发布于:https://github.com/CMPhysBench/CMPhysBench。