TransformerCPI : amélioration de la prédiction des interactions composé-protéine par apprentissage profond basé sur les séquences avec un mécanisme d’attention auto-associative et des expériences de renversement des étiquettes
MotivationL’identification des interactions entre composés et protéines (CPI) constitue une tâche essentielle dans la découverte de médicaments et les études de chemogénomique. Les protéines dont la structure tridimensionnelle n’est pas connue représentent une part importante des cibles biologiques potentielles, ce qui rend nécessaire le développement de méthodes ne s’appuyant que sur les informations de séquence protéique pour prédire les interactions CPI. Toutefois, les modèles de prédiction fondés sur les séquences peuvent être sujets à des pièges spécifiques, tels que l’utilisation de jeux de données inappropriés, un biais caché lié aux ligands ou un découpage inadéquat des données, conduisant à une surévaluation de leurs performances prédictives.RésultatsPour remédier à ces problèmes, nous avons construit de nouveaux jeux de données spécifiquement conçus pour la prédiction de CPI, proposé un nouveau réseau neuronal à transformer baptisé TransformerCPI, et introduit une expérience de renversement des étiquettes plus rigoureuse afin d’évaluer si un modèle apprend véritablement des caractéristiques d’interaction. TransformerCPI a obtenu des performances nettement améliorées sur ces nouvelles évaluations, et peut être décomposé pour mettre en évidence les régions clés des séquences protéiques et des atomes des composés impliqués dans l’interaction. Ces capacités pourraient fournir des orientations utiles aux études de chimie biologique, en guidant l’optimisation structurale ultérieure des ligands.