Struktur zu Eigenschaft: Chemische Element-Embeddings und ein Deep-Learning-Ansatz zur präzisen Vorhersage chemischer Eigenschaften

Wir stellen das elEmBERT-Modell für chemische Klassifizierungsaufgaben vor. Es basiert auf tiefen Lernverfahren, darunter eine mehrschichtige Encoder-Architektur. Wir demonstrieren die Möglichkeiten unseres Ansatzes an Datensätzen organischer, anorganischer und kristalliner Verbindungen. Insbesondere haben wir das Modell anhand der Benchmarks Matbench und Moleculenet entwickelt und getestet, die Kristall-Eigenschaften sowie benchmarks im Bereich der Arzneimittelentwicklung umfassen. Zudem führen wir eine Analyse der Vektorrepräsentationen chemischer Verbindungen durch, die Einblicke in die zugrundeliegenden Muster in strukturellen Daten ermöglicht. Unser Modell zeichnet sich durch außergewöhnliche Vorhersagefähigkeit aus und erweist sich als universell anwendbar auf molekulare und materialspezifische Datensätze. So erreichten wir beispielsweise auf dem Tox21-Datensatz eine durchschnittliche Präzision von 96 %, was das bisher beste Ergebnis um 10 % übertrifft.