HyperAIHyperAI

Command Palette

Search for a command to run...

vor 2 Monaten

CMPhysBench: Ein Benchmark zur Bewertung großer Sprachmodelle in der Festkörperphysik

CMPhysBench: Ein Benchmark zur Bewertung großer Sprachmodelle in der Festkörperphysik

Abstract

Wir stellen CMPhysBench vor, einen neuartigen Benchmark zur Bewertung der Kompetenz von Großsprachmodellen (Large Language Models, LLMs) im Bereich der Festkörperphysik. CMPhysBench besteht aus über 520 hochgradig sorgfältig zusammengestellten Fragen auf Graduiertenniveau, die sowohl repräsentative Teilgebiete als auch grundlegende theoretische Rahmenwerke der Festkörperphysik abdecken, wie beispielsweise Magnetismus, Supraleitung und stark korrelierte Systeme. Um ein tiefgreifendes Verständnis des Problemlösungsprozesses sicherzustellen, konzentrieren wir uns ausschließlich auf Rechenaufgaben, bei denen LLMs eigenständig umfassende Lösungen generieren müssen. Gleichzeitig führen wir auf der Basis von baumartigen Darstellungen von Ausdrücken die skalierbare Ausdruckssubstitutionsdistanz (Scalable Expression Edit Distance, SEED) ein, die fein granulare (nicht-binäre) Teilpunkte verleiht und eine präzisere Bewertung der Ähnlichkeit zwischen Vorhersage und Referenzwert ermöglicht. Unsere Ergebnisse zeigen, dass selbst die besten verfügbaren Modelle, wie Grok-4, lediglich durchschnittlich 36 SEED-Punkte und eine Genauigkeit von 28 % auf CMPhysBench erreichen, was eine erhebliche Fähigkeitslücke – insbesondere im Hinblick auf dieses praktische und forschungsnahe Feld im Vergleich zu traditionellen Physikbereichen – unterstreicht. Der Quellcode und das Datenset sind öffentlich über https://github.com/CMPhysBench/CMPhysBench verfügbar.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
CMPhysBench: Ein Benchmark zur Bewertung großer Sprachmodelle in der Festkörperphysik | Forschungsarbeiten | HyperAI