Analyse gelernter molekularer Repräsentationen für die Eigenschaftsvorhersage

Fortschritte im Bereich der neuronalen Maschinen haben zu einer Vielzahl von algorithmischen Lösungen für die Vorhersage molekularer Eigenschaften geführt. Zwei Klassen von Modellen haben insbesondere vielversprechende Ergebnisse erzielt: Neuronale Netze, die auf berechneten molekularen Fingerprints oder von Experten erstellten Deskriptoren angewendet werden, und Graph-Convolutional-Neural-Networks (GCNN), die eine gelernte molekulare Darstellung durch Operation auf der Graphstruktur des Moleküls konstruieren. Allerdings hat die jüngste Literatur es noch nicht eindeutig geklärt, welche dieser beiden Methoden bei der Generalisierung auf neuen chemischen Raum überlegen ist. Zudem wurde in früheren Studien selten untersucht, wie diese neuen Modelle in industriellen Forschungsumgebungen im Vergleich zu bereits eingesetzten Modellen performen. In dieser Arbeit benchmarken wir Modelle umfassend anhand von 19 öffentlichen und 16 proprietären industriellen Datensätzen, die eine breite Palette chemischer Endpunkte abdecken. Darüber hinaus stellen wir ein GCNN-Modell vor, das konsistent mit oder besser als Modelle, die feste molekulare Deskriptoren verwenden, sowie frühere graphbasierte neuronale Architekturen sowohl in öffentlichen als auch in proprietären Datensätzen abschneidet. Unsere empirischen Befunde deuten darauf hin, dass Ansätze basierend auf diesen Darstellungen das Niveau experimenteller Reproduzierbarkeit noch nicht erreicht haben; unser vorgeschlagenes Modell bietet jedoch trotzdem erhebliche Verbesserungen gegenüber den in industriellen Workflows aktuell verwendeten Modellen.