Command Palette
Search for a command to run...
CMPhysBench: Ein Benchmark zur Bewertung großer Sprachmodelle in der Festkörperphysik

Abstract
Wir stellen CMPhysBench vor, einen neuartigen Benchmark zur Bewertung der Kompetenz von Großsprachmodellen (Large Language Models, LLMs) im Bereich der Festkörperphysik. CMPhysBench besteht aus über 520 hochgradig sorgfältig zusammengestellten Fragen auf Graduiertenniveau, die sowohl repräsentative Teilgebiete als auch grundlegende theoretische Rahmenwerke der Festkörperphysik abdecken, wie beispielsweise Magnetismus, Supraleitung und stark korrelierte Systeme. Um ein tiefgreifendes Verständnis des Problemlösungsprozesses sicherzustellen, konzentrieren wir uns ausschließlich auf Rechenaufgaben, bei denen LLMs eigenständig umfassende Lösungen generieren müssen. Gleichzeitig führen wir auf der Basis von baumartigen Darstellungen von Ausdrücken die skalierbare Ausdruckssubstitutionsdistanz (Scalable Expression Edit Distance, SEED) ein, die fein granulare (nicht-binäre) Teilpunkte verleiht und eine präzisere Bewertung der Ähnlichkeit zwischen Vorhersage und Referenzwert ermöglicht. Unsere Ergebnisse zeigen, dass selbst die besten verfügbaren Modelle, wie Grok-4, lediglich durchschnittlich 36 SEED-Punkte und eine Genauigkeit von 28 % auf CMPhysBench erreichen, was eine erhebliche Fähigkeitslücke – insbesondere im Hinblick auf dieses praktische und forschungsnahe Feld im Vergleich zu traditionellen Physikbereichen – unterstreicht. Der Quellcode und das Datenset sind öffentlich über https://github.com/CMPhysBench/CMPhysBench verfügbar.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.