LLM4Mat-Bench-Kristallstrukturdatensatz
Datum
Veröffentlichungs-URL
Kategorien
LLM4Mat-Bench ist ein multimodaler Datensatz zur Bewertung von Sprachmodellen für die Vorhersage von Materialeigenschaften, der gemeinsam von der Princeton University, der University of Toronto und anderen Institutionen erstellt wurde. Die entsprechenden Ergebnisse der Studie sind „LLM4Mat-Bench: Benchmarking großer Sprachmodelle zur Vorhersage von MaterialeigenschaftenZiel des Projekts ist die Bewertung der Leistungsfähigkeit großer Sprachmodelle (LLMs) bei der Vorhersage von Materialeigenschaften und der Materialentdeckung. Der Datensatz enthält rund 1,97 Millionen Kristallstrukturproben aus zehn öffentlichen Materialdatenbanken und deckt 45 verschiedene physikalische und chemische Materialeigenschaften ab. Es handelt sich um den bislang umfangreichsten Benchmark zur Bewertung der Leistungsfähigkeit großer Sprachmodelle (LLMs) bei der Vorhersage von Materialeigenschaften.

Jeder Datensatz im Dataset ist durch mehrere Eingabemodalitäten gekennzeichnet, darunter die chemische Zusammensetzung des Kristalls, die Standardkristallstrukturdatei (CIF) und die vom Robocrystallographer-Tool generierte Beschreibung der Kristallstruktur in natürlicher Sprache. Zusammen stellen diese Modalitäten eine umfassende Darstellung des Materials dar, die zur Unterstützung der Eingabe und des Lernens von LLMs in einer Vielzahl von Aufgabenszenarien verwendet wird.
Gesamtdatenmenge:
- Kristallkompositionsmodus (Komposition): ca. 4,7 Millionen Token
- Kristallstrukturmodus (CIF): ca. 615,5 Millionen Token
- Textbeschreibungen: ca. 3,1 Milliarden Token
Der Prozess zum Erstellen dieses Datensatzes umfasst das Sammeln von Original-CIF-Dateien und Materialeigenschaften aus mehreren gängigen Materialdatenbanken und das automatische Generieren von Struktursprachenbeschreibungen basierend auf der Kristallstruktur, wodurch eine multimodale, einheitliche Strukturdatenprobe entsteht. Jeder Probendatensatz enthält die entsprechende Material-ID, chemische Formel, Eigenschaftswerte (wie Bandlücke, Bildungsenergie, Dichte, Elastizitätsmodul usw.) und andere Informationen.
Das Hauptziel von LLM4Mat-Bench besteht darin, die übergreifende Integration von Materialwissenschaft und natürlicher Sprachverarbeitung zu fördern und die Forschung und Anwendungsentwicklung in den Bereichen aufgabenspezifische Modellbewertung, Eigenschaftsvorhersage und Feinabstimmung von Anweisungen voranzutreiben. Seine Eigenschaften, die auf mehreren Quellen, mehreren Modalitäten und großem Maßstab beruhen, machen es zu einem wichtigen Referenzmaßstab in der Erforschung materieller Sprachmodelle.