vor 5 Monaten

Weida Wang Dongchen Huang Jiatong Li Tengchao Yang Ziyang Zheng Di Zhang Dong Han Benteng Chen Binzhao Luo Zhiyu Liu

Zusammenfassung

Wir stellen CMPhysBench vor, einen neuartigen Benchmark zur Bewertung der Kompetenz von Großsprachmodellen (Large Language Models, LLMs) im Bereich der Festkörperphysik. CMPhysBench besteht aus über 520 hochgradig sorgfältig zusammengestellten Fragen auf Graduiertenniveau, die sowohl repräsentative Teilgebiete als auch grundlegende theoretische Rahmenwerke der Festkörperphysik abdecken, wie beispielsweise Magnetismus, Supraleitung und stark korrelierte Systeme. Um ein tiefgreifendes Verständnis des Problemlösungsprozesses sicherzustellen, konzentrieren wir uns ausschließlich auf Rechenaufgaben, bei denen LLMs eigenständig umfassende Lösungen generieren müssen. Gleichzeitig führen wir auf der Basis von baumartigen Darstellungen von Ausdrücken die skalierbare Ausdruckssubstitutionsdistanz (Scalable Expression Edit Distance, SEED) ein, die fein granulare (nicht-binäre) Teilpunkte verleiht und eine präzisere Bewertung der Ähnlichkeit zwischen Vorhersage und Referenzwert ermöglicht. Unsere Ergebnisse zeigen, dass selbst die besten verfügbaren Modelle, wie Grok-4, lediglich durchschnittlich 36 SEED-Punkte und eine Genauigkeit von 28 % auf CMPhysBench erreichen, was eine erhebliche Fähigkeitslücke – insbesondere im Hinblick auf dieses praktische und forschungsnahe Feld im Vergleich zu traditionellen Physikbereichen – unterstreicht. Der Quellcode und das Datenset sind öffentlich über https://github.com/CMPhysBench/CMPhysBench verfügbar.

Quell-PDF Code anzeigen

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

vor 5 Monaten

Weida Wang Dongchen Huang Jiatong Li Tengchao Yang Ziyang Zheng Di Zhang Dong Han Benteng Chen Binzhao Luo Zhiyu Liu

Zusammenfassung

Quell-PDF Code anzeigen

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

vor 5 Monaten

Weida Wang Dongchen Huang Jiatong Li Tengchao Yang Ziyang Zheng Di Zhang Dong Han Benteng Chen Binzhao Luo Zhiyu Liu

Zusammenfassung

Quell-PDF Code anzeigen

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

CMPhysBench: Ein Benchmark zur Bewertung großer Sprachmodelle in der Festkörperphysik

Weida Wang Dongchen Huang Jiatong Li Tengchao Yang Ziyang Zheng Di Zhang Dong Han Benteng Chen Binzhao Luo Zhiyu Liu25 more

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

CMPhysBench: Ein Benchmark zur Bewertung großer Sprachmodelle in der Festkörperphysik

Weida Wang Dongchen Huang Jiatong Li Tengchao Yang Ziyang Zheng Di Zhang Dong Han Benteng Chen Binzhao Luo Zhiyu Liu25 more

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

CMPhysBench: Ein Benchmark zur Bewertung großer Sprachmodelle in der Festkörperphysik

Weida Wang Dongchen Huang Jiatong Li Tengchao Yang Ziyang Zheng Di Zhang Dong Han Benteng Chen Binzhao Luo Zhiyu Liu25 more

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Weida Wang Dongchen Huang Jiatong Li Tengchao Yang Ziyang Zheng Di Zhang Dong Han Benteng Chen Binzhao Luo Zhiyu Liu

Weida Wang Dongchen Huang Jiatong Li Tengchao Yang Ziyang Zheng Di Zhang Dong Han Benteng Chen Binzhao Luo Zhiyu Liu

Weida Wang Dongchen Huang Jiatong Li Tengchao Yang Ziyang Zheng Di Zhang Dong Han Benteng Chen Binzhao Luo Zhiyu Liu