HyperAIHyperAI
il y a 9 jours

Pousser les limites de la prédiction des propriétés moléculaires pour la découverte de médicaments grâce à l'apprentissage multitâche BERT amélioré par énumération SMILES

{DS Cao, TJ Hou, AP Lu, CQ Yang, XX Zeng, JC Yi, CK Wu, XC Zhang}
Résumé

La prédiction précise des propriétés pharmacologiques des petites molécules devient de plus en plus cruciale dans la découverte de médicaments. Les approches traditionnelles basées sur l’ingénierie de caractéristiques s’appuient fortement sur des descripteurs et/ou des empreintes manuellement conçus, nécessitant une expertise humaine considérable. Avec l’évolution rapide des technologies de l’intelligence artificielle, les méthodes d’apprentissage profond fondées sur les données ont démontré des avantages inégalés par rapport aux méthodes basées sur l’ingénierie de caractéristiques. Toutefois, les méthodes d’apprentissage profond existantes souffrent généralement d’un manque de données étiquetées et de leur incapacité à partager efficacement des informations entre différentes tâches lors de la prédiction des propriétés moléculaires, ce qui limite leur capacité de généralisation. Dans ce travail, nous proposons un cadre novateur d’apprentissage multitâche basé sur BERT (représentations bidirectionnelles à partir des transformateurs), nommé MTL-BERT, qui exploite l’apprentissage préalable à grande échelle, l’apprentissage multitâche et l’énumération de SMILES (spécification simplifiée d’entrée de molécules en ligne) afin de pallier le problème de la rareté des données. MTL-BERT exploite initialement une grande quantité de données non étiquetées via un pré-entraînement auto-supervisé pour extraire l’information contextuelle riche contenue dans les chaînes SMILES, puis affine simultanément le modèle pré-entraîné sur plusieurs tâches ultérieures en tirant parti des informations partagées entre elles. Par ailleurs, l’énumération de SMILES est utilisée comme stratégie d’amélioration des données durant les phases de pré-entraînement, d’affinage et de test, permettant ainsi d’accroître significativement la diversité des données et de faciliter l’apprentissage des motifs clés pertinents à partir de chaînes SMILES complexes. Les résultats expérimentaux montrent qu’un modèle MTL-BERT pré-entraîné, avec une fine-tuning limitée, atteint des performances nettement supérieures aux méthodes de pointe sur la plupart des 60 jeux de données moléculaires pratiques. En outre, le modèle MTL-BERT utilise des mécanismes d’attention pour se concentrer sur les caractères SMILES essentiels aux propriétés cibles, améliorant ainsi l’interprétabilité du modèle.