Lineare Skalierungs-Kerne für Proteindaten und kleine Moleküle übertrumpfen tiefe Lernverfahren, während sie Unsicherheitsquantifizierung und verbesserte Interpretierbarkeit bieten

Der Gaussian-Prozess (GP) ist ein bayessches Modell, das für Regressionsaufgaben im maschinellen Lernen mehrere Vorteile bietet, darunter eine zuverlässige Quantifizierung von Unsicherheiten und eine verbesserte Interpretierbarkeit. Ihre Anwendung wurde jedoch bisher durch ihre hohen Rechenkosten sowie durch die Schwierigkeit eingeschränkt, sie für die Analyse von Sequenzen (z. B. Aminosäure- und Nukleotidsequenzen) und Graphen (z. B. solche, die kleine Moleküle darstellen) zu adaptieren. In dieser Studie entwickeln wir effiziente und skalierbare Ansätze zur Anpassung von GP-Modellen sowie schnelle Faltungskerne, die linear mit der Größe von Graphen oder Sequenzen skaliert werden. Diese Verbesserungen realisieren wir durch die Entwicklung einer Open-Source-Python-Bibliothek namens xGPR. Wir vergleichen die Leistung von xGPR mit den veröffentlichten Ergebnissen verschiedener tiefen Lernmodelle an 20 Benchmarks, darunter Daten zu kleinen Molekülen, Proteinsequenzen und tabellarischen Daten. Wir zeigen, dass xGPR eine hochkompetitive Leistung erzielt, wobei die Trainingszeiten deutlich kürzer sind. Zudem entwickeln wir neue Kerne für Sequenz- und Graphendaten und belegen, dass xGPR im Allgemeinen Convolutional Neural Networks bei der Vorhersage zentraler Eigenschaften von Proteinen und kleinen Molekülen übertrifft. Wichtig ist, dass xGPR Unsicherheitsinformationen bereitstellt, die typische tiefe Lernmodelle nicht liefern. Darüber hinaus bietet xGPR eine Darstellung der Eingabedaten, die für Clustering und Datenvisualisierung genutzt werden kann. Diese Ergebnisse demonstrieren, dass xGPR ein leistungsfähiges und generisches Werkzeug darstellt, das breit in der Protein-Engineering- und Arzneimittelentwicklung einsetzbar ist.