Command Palette

Search for a command to run...

2달 전

CMPhysBench: 응집물리에서 대규모 언어 모델 평가를 위한 벤치마크

CMPhysBench: 응집물리에서 대규모 언어 모델 평가를 위한 벤치마크

초록

우리는 고체물리 분야에서 대규모 언어 모델(Large Language Models, LLMs)의 능력을 평가하기 위해 설계된 새로운 벤치마크인 CMPhysBench를 소개한다. CMPhysBench는 자성, 초전도성, 강한 상호작용 시스템 등 고체물리학의 대표적 하위 분야와 기초 이론적 틀을 포괄하는 520개 이상의 대학원 수준의 철저히 선별된 문제로 구성되어 있다. 문제 해결 과정에 대한 깊이 있는 이해를 보장하기 위해, 본 벤치마크는 계산 문제에만 집중하며, LLM이 독립적으로 종합적인 해결책을 생성하도록 요구한다. 동시에 표현식을 트리 구조로 표현하는 방식을 활용하여, 보다 세밀한(이진이 아닌) 부분 점수를 부여할 수 있는 확장 가능한 표현식 편집 거리(Scalable Expression Edit Distance, SEED) 점수를 제안한다. 이는 예측 결과와 정답 간의 유사도를 더 정확하게 평가할 수 있게 한다. 실험 결과, 최고 성능을 보이는 모델인 Grok-4조차도 CMPhysBench에서 평균 SEED 점수 36점, 정확도 28%에 그치는 것으로 나타나, 전통적 물리학 분야에 비해 이 실용적이고 최전방적인 분야에서 LLMs의 능력 격차가 여전히 크다는 점을 시사한다. 관련 코드와 데이터셋은 공개적으로 제공되며, https://github.com/CMPhysBench/CMPhysBench 에서 확인할 수 있다.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩
즉시 사용 가능한 GPU
최적 가격
시작하기

Hyper Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
CMPhysBench: 응집물리에서 대규모 언어 모델 평가를 위한 벤치마크 | 연구 논문 | HyperAI초신경