Eine von der Gemeinschaft getragene Suche im Raum der Maschinelles-Lernen-Strategien, um NMR-Eigenschaftsvorhersagemodelle zu finden

Der Aufstieg des maschinellen Lernens (ML) hat eine Explosion potenzieller Strategien zur Nutzung von Daten für wissenschaftliche Vorhersagen ausgelöst. Für physikalische Wissenschaftler, die ML-Strategien in einem bestimmten Bereich anwenden möchten, kann es schwierig sein, im Voraus zu bewerten, welche Strategie innerhalb eines umfangreichen Spektrums von Möglichkeiten gewählt werden sollte. Hier stellen wir die Ergebnisse eines online-gemeinschaftsbasierten Projekts vor, das den Suchraum der ML-Strategien durchsucht und Algorithmen zur Vorhersage atomarer paarweiser Kernspinresonanz-(NMR)-Eigenschaften in Molekülen entwickelt hat. Unter Verwendung eines quelloffenen Datensatzes arbeiteten wir mit Kaggle zusammen, um einen Wettbewerb über einen Zeitraum von drei Monaten zu gestalten und auszurichten, der 47.800 ML-Modellvorhersagen von 2.700 Teams in 84 Ländern erhielt. Innerhalb von drei Wochen produzierte die Kaggle-Gemeinschaft Modelle mit einer Genauigkeit, die vergleichbar mit unseren bisher besten veröffentlichten "in-house"-Anstrengungen war. Ein Meta-Ensemble-Modell, das als lineare Kombination der besten Vorhersagen konstruiert wurde, erreicht eine Vorhersagegenauigkeit, die jede einzelne Modellgenauigkeit übertrifft und 7-19-mal besser ist als unser bisheriger Stand der Technik. Die Ergebnisse unterstreichen das Potenzial von Transformer-Architekturen zur Vorhersage quantenmechanischer (QM) molekularer Eigenschaften.