Command Palette
Search for a command to run...

초록
우리는 고체물리 분야에서 대규모 언어 모델(Large Language Models, LLMs)의 능력을 평가하기 위해 설계된 새로운 벤치마크인 CMPhysBench를 소개한다. CMPhysBench는 자성, 초전도성, 강한 상호작용 시스템 등 고체물리학의 대표적 하위 분야와 기초 이론적 틀을 포괄하는 520개 이상의 대학원 수준의 철저히 선별된 문제로 구성되어 있다. 문제 해결 과정에 대한 깊이 있는 이해를 보장하기 위해, 본 벤치마크는 계산 문제에만 집중하며, LLM이 독립적으로 종합적인 해결책을 생성하도록 요구한다. 동시에 표현식을 트리 구조로 표현하는 방식을 활용하여, 보다 세밀한(이진이 아닌) 부분 점수를 부여할 수 있는 확장 가능한 표현식 편집 거리(Scalable Expression Edit Distance, SEED) 점수를 제안한다. 이는 예측 결과와 정답 간의 유사도를 더 정확하게 평가할 수 있게 한다. 실험 결과, 최고 성능을 보이는 모델인 Grok-4조차도 CMPhysBench에서 평균 SEED 점수 36점, 정확도 28%에 그치는 것으로 나타나, 전통적 물리학 분야에 비해 이 실용적이고 최전방적인 분야에서 LLMs의 능력 격차가 여전히 크다는 점을 시사한다. 관련 코드와 데이터셋은 공개적으로 제공되며, https://github.com/CMPhysBench/CMPhysBench 에서 확인할 수 있다.