il y a 17 jours

Les noyaux à évolution linéaire pour les séquences protéiques et les petites molécules surpassent l'apprentissage profond tout en offrant une quantification de l'incertitude et une interprétabilité améliorées

Jonathan Parkinson, Wei Wang

Résumé

Le processus gaussien (GP) est un modèle bayésien offrant plusieurs avantages pour les tâches de régression en apprentissage automatique, notamment une estimation fiable de l’incertitude et une meilleure interprétabilité. Toutefois, leur adoption a été limitée par un coût computationnel élevé, ainsi que par la difficulté à les adapter à l’analyse de séquences (par exemple, séquences d’acides aminés ou d’acides nucléiques) et de graphes (par exemple, ceux représentant des petites molécules). Dans cette étude, nous développons des approches efficaces et évolutives pour ajuster les modèles GP, ainsi que de nouveaux noyaux de convolution qui évoluent linéairement avec la taille des graphes ou des séquences. Nous implémentons ces améliorations en créant une bibliothèque open source en Python appelée xGPR. Nous comparons les performances de xGPR aux résultats rapportés de divers modèles d’apprentissage profond sur 20 benchmarks, incluant des données sur petites molécules, séquences protéiques et données tabulaires. Nous montrons que xGPR atteint des performances très compétitives avec des temps d’entraînement nettement réduits. En outre, nous proposons de nouveaux noyaux adaptés aux données séquentielles et graphiques, et démontrons que xGPR surpasse généralement les réseaux de neurones convolutifs dans la prédiction de propriétés clés des protéines et des petites molécules. De manière importante, xGPR fournit des informations sur l’incertitude, absent des modèles d’apprentissage profond classiques. En outre, xGPR génère une représentation des données d’entrée pouvant être utilisée pour le regroupement et la visualisation des données. Ces résultats démontrent que xGPR constitue un outil puissant et généralisable, susceptible d’être largement utile dans le domaine de l’ingénierie protéique et de la découverte de médicaments.