HyperAIHyperAI

Command Palette

Search for a command to run...

CMPhysBench: Ein Benchmark zur Bewertung großer Sprachmodelle in der Festkörperphysik

Zusammenfassung

Wir stellen CMPhysBench vor, einen neuartigen Benchmark zur Bewertung der Kompetenz von Großsprachmodellen (Large Language Models, LLMs) im Bereich der Festkörperphysik. CMPhysBench besteht aus über 520 hochgradig sorgfältig zusammengestellten Fragen auf Graduiertenniveau, die sowohl repräsentative Teilgebiete als auch grundlegende theoretische Rahmenwerke der Festkörperphysik abdecken, wie beispielsweise Magnetismus, Supraleitung und stark korrelierte Systeme. Um ein tiefgreifendes Verständnis des Problemlösungsprozesses sicherzustellen, konzentrieren wir uns ausschließlich auf Rechenaufgaben, bei denen LLMs eigenständig umfassende Lösungen generieren müssen. Gleichzeitig führen wir auf der Basis von baumartigen Darstellungen von Ausdrücken die skalierbare Ausdruckssubstitutionsdistanz (Scalable Expression Edit Distance, SEED) ein, die fein granulare (nicht-binäre) Teilpunkte verleiht und eine präzisere Bewertung der Ähnlichkeit zwischen Vorhersage und Referenzwert ermöglicht. Unsere Ergebnisse zeigen, dass selbst die besten verfügbaren Modelle, wie Grok-4, lediglich durchschnittlich 36 SEED-Punkte und eine Genauigkeit von 28 % auf CMPhysBench erreichen, was eine erhebliche Fähigkeitslücke – insbesondere im Hinblick auf dieses praktische und forschungsnahe Feld im Vergleich zu traditionellen Physikbereichen – unterstreicht. Der Quellcode und das Datenset sind öffentlich über https://github.com/CMPhysBench/CMPhysBench verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp