HyperAIHyperAI

NVIDIA Propose ReaSyn, Qui s'appuie Sur l'analogie De La Synthèse Moléculaire De La Chaîne De Pensée Pour Atteindre Un Taux De Reconstruction Et Une Diversité De Chemin ultra-élevés.

特色图像

Le principal défi de la découverte de médicaments moderne réside dans l'identification précise de molécules à potentiel thérapeutique dans un espace chimique quasi infini. La découverte de médicaments traditionnelle se heurte souvent à un double dilemme : l'espace chimique est incroyablement vaste, le nombre de molécules possibles composées de seulement 10 atomes pouvant atteindre 10⁶⁰, ce qui rend le criblage aussi complexe que la recherche d'une aiguille dans une botte de foin. De plus, les molécules candidates doivent répondre à de multiples exigences, notamment en matière d'activité, de toxicité et de solubilité. Il en résulte des cycles de développement dépassant souvent 10 ans, des coûts se chiffrant en milliards de dollars et un taux de réussite inférieur à 10%.

Les modèles génératifs moléculaires étaient autrefois prometteurs à cet égard. Utilisant des algorithmes pour simuler la génération de structures moléculaires, cette technologie promettait de raccourcir considérablement les cycles de découverte et même de permettre la conception à la demande. Cependant, en pratique, on a constaté que les molécules générées par modèles étaient souvent difficiles à synthétiser en laboratoire. Cette limitation liée au papier limitait considérablement leur utilité pratique.

Pour surmonter ce goulot d'étranglement, la communauté universitaire a essayé deux stratégies : l'une consiste à utiliser la « synthétisabilité » comme objectif d'optimisation et à guider la génération de molécules faciles à synthétiser par notation. Cependant, en raison de la complexité de la relation structure-synthétisabilité et de la difficulté de notation pour couvrir les variables expérimentales, l'effet est limité ; l'autre consiste à limiter le modèle à l'exploration des seules molécules synthétisables connues. Bien que cela améliore la contrôlabilité, cela sacrifie l'innovation structurelle. La stratégie de « projection synthétisable » a donc retenu l'attention. Son objectif principal est de « corriger » les molécules non synthétisables en analogues présentant des structures similaires et des voies de synthèse claires.Cette stratégie peut intégrer de manière flexible plusieurs méthodes de génération pour prendre en charge des tâches telles que l’expansion des composés actifs et l’optimisation des prospects.

Dans ce contexte,ReaSyn, un framework de projection moléculaire efficace et synthétisable avec des capacités de raisonnement intégrées, lancé par l'équipe de recherche NVIDIA,En adoptant la représentation de la chaîne de réaction (CoR) et en considérant le chemin de synthèse comme le chemin de raisonnement de la chaîne de pensée (CoT) du LLM, une nouvelle voie a été ouverte pour résoudre les problèmes pratiques de la synthèse moléculaire.

Dans la reconstruction de molécules synthétisables,ReaSyn a obtenu le taux de reconstruction et la diversité de chemin les plus élevés ;Il a également obtenu les meilleures performances d'optimisation dans l'optimisation moléculaire dirigée vers une cible synthétisable et a considérablement surpassé les méthodes précédentes dans la tâche d'expansion de hit synthétisable.

Les résultats de recherche pertinents ont été publiés sur arXiv sous le titre « Repenser la synthétisabilité des molécules avec la chaîne de réaction ».

Points saillants de la recherche :

* Cette étude propose le cadre ReaSyn et la représentation en chaîne de réaction (CoR) pour transformer les voies synthétiques en chaînes de pensée explicables pour le raisonnement.

* Les solutions personnalisées de réglage fin et d'extension de calcul RL améliorent considérablement l'efficacité d'exploration et les performances d'optimisation du modèle.

* Grâce à des expériences multitâches, l’efficacité et la polyvalence du framework dans la génération et l’optimisation de molécules synthétisables sont confirmées.


Adresse du document :
https://arxiv.org/abs/2509.16084
Suivez le compte officiel et répondez « ReaSyn » pour obtenir le PDF complet

Autres articles sur les frontières de l'IA :

https://hyper.ai/papers

Construction d'un jeu de données proche du développement réel de médicaments

L'étude a d'abord construit un cadre expérimental proche du scénario réel de développement de médicaments, en utilisant un ensemble de réactions contenant 115 types de réactions courantes et en le combinant avec 212 000 blocs de construction achetables obtenus à partir du catalogue d'inventaire américain d'Enamine.Ensemble, ils définissent un espace chimique synthétique dont la taille dépasse 10⁶⁰ molécules.L'expérience se concentre sur la tâche de « reconstruire des molécules synthétisables », visant à tester la capacité du modèle à couvrir un large espace chimique en générant des voies de synthèse réalisables pour des molécules données.

Dans la conception de l’ensemble de tests, l’équipe de recherche a utilisé plusieurs ensembles de molécules présentant différents défis.Outre un ensemble de tests de base de 1 000 molécules sélectionnées aléatoirement dans la base de données de diversité Enamine REAL et la base de données ChEMBL, un ensemble de tests étendu a été construit pour simuler le scénario réel de mise à jour de l'inventaire des blocs de construction lors du développement de médicaments. Plus de 37 000 molécules de moins de 18 atomes lourds ont été sélectionnées dans la bibliothèque ZINC250k comme nouveaux blocs de construction, et 1 000 molécules tests ont été générées à partir de cet inventaire étendu. L'expérience a également intégré l'ensemble de tests ChEMBL proposé par Luo et al. afin de garantir la comparabilité avec les recherches existantes.

Cadre ReaSyn : une voie technologique progressive de la représentation moléculaire à l'amélioration de l'inférence

Le cadre ReaSyn vise à résoudre les principaux goulots d’étranglement de l’inférence dans la projection de molécules synthétisables.Son parcours technique suit une logique progressive allant de l’innovation dans la représentation moléculaire jusqu’aux capacités de raisonnement améliorées.

Comme le montre la figure ci-dessous, l'étude a d'abord clairement défini l'espace chimique synthétisable : cet espace est déterminé par un ensemble de blocs de construction et un ensemble de règles de réaction. Chaque réaction décrit la transformation des réactifs en produits à l'aide du langage SMARTS, tandis que l'espace synthétisable représente l'ensemble de tous les produits pouvant être obtenus à partir des blocs de construction initiaux par l'application itérative des règles de réaction. Dans ce cadre, l'objectif principal de la projection synthétisable est de générer une voie de synthèse 𝑝 pour une molécule cible 𝑥 donnée, de telle sorte que la similarité structurale entre le produit final de la voie et 𝑥 soit maximisée.


Cadre global de ReaSyn

En termes de représentation de la voie de synthèse moléculaire, comme le montre la figure ci-dessous,ReaSyn a proposé de manière innovante la stratégie de représentation « Chaîne de réaction (CoR) ».Cela permet de surmonter les diverses limitations de la représentation traditionnelle des suffixes d'arbres synthétiques. Si les méthodes traditionnelles prennent en charge la génération autorégressive, elles présentent des défauts inhérents, tels que la nécessité d'un apprentissage implicite des règles de réaction, la susceptibilité des prédictions hiérarchiques à la propagation des erreurs et le manque de bijectivité dans les représentations d'empreintes digitales par blocs de construction.

La méthode de représentation de la chaîne de réaction a réalisé trois avancées importantes tout en conservant sa polyvalence : l'intégration de la chaîne de pensée (CoT) au niveau de la réaction chimique, la réalisation d'une prédiction complète du chemin sans classification hiérarchique et l'élimination de la dépendance aux empreintes digitales moléculaires.

Dans une implémentation spécifique, la voie de synthèse est décomposée en plusieurs blocs fonctionnels, partageant tous un vocabulaire unifié. Les blocs moléculaires sont représentés par des chaînes SMILES avec des étiquettes spécifiques, tandis que les blocs réactionnels sont représentés par des jetons uniques. Enfin, une séquence complète de la voie est formée par des opérations d'épissage.


Notation CoR

La formation du modèle adopte une stratégie en deux étapes qui combine l’apprentissage supervisé et le réglage fin de l’apprentissage par renforcement.

Dans la phase d'apprentissage supervisé, les données appariées des molécules cibles et des voies de synthèse sont utilisées pour former le modèle Transformer dans le but de prédire le prochain jeton.Et en concevant une fonction de perte pondérée de type jeton pour équilibrer l'intensité d'apprentissage de différents types de jetons, tout en fournissant des signaux de supervision plus riches à l'aide de produits intermédiaires.L'algorithme d'apprentissage par renforcement en ligne est utilisé dans l'étape de réglage fin de l'apprentissage par renforcement.Le mécanisme de récompense permet au modèle d'explorer des voies plus efficaces. Sa fonction de perte prend en compte non seulement la maximisation des récompenses, mais aussi la stabilité du comportement du modèle, compensant ainsi efficacement les limites de l'apprentissage supervisé en termes de capacités d'exploration.

Au stade de l’inférence,ReaSyn combine une structure de pile avec un mécanisme de recherche de faisceau pour obtenir une mise à l'échelle des calculs en fonction des objectifs et personnaliser les stratégies de notation en fonction des différentes exigences des tâches. La pile gère dynamiquement les réactifs et les intermédiaires, prenant en charge le raisonnement étape par étape ; la recherche de faisceau préserve la diversité des recherches en conservant plusieurs chemins candidats à score élevé.

Dans la tâche de reconstruction moléculaire,La stratégie de notation se concentre sur la similarité structurelle et la faisabilité de la réaction pour assurer une reproduction précise de la molécule cible ; dans les tâches d'optimisation moléculaire et d'expansion d'activité, un modèle de récompense est introduit pour évaluer les propriétés cibles des éléments de base et des intermédiaires, guidant la recherche vers des molécules synthétisables avec des propriétés idéales, et réalisant une exploration et une optimisation ciblées dans l'espace synthétisable.

Résultats expérimentaux : les performances multitâches surpassent SynNet et d'autres méthodes, et les expériences d'ablation vérifient l'efficacité des composants de base

Les résultats expérimentaux sont présentés dans le tableau suivant.ReaSyn démontre des performances globales supérieures aux méthodes SynNet et SynFormer existantes dans plusieurs tâches clés.

Comparaison des méthodes ReaSyn, SynNet et SynFormer

Dans la tâche d’optimisation des molécules cibles synthétisables,La recherche s’est concentrée sur la manière dont ReaSyn peut améliorer la praticité des méthodes d’optimisation traditionnelles.Cette tâche utilise l'algorithme génétique des graphes (Graph GA) comme cadre de base et introduit ReaSyn après son étape de sélection pour effectuer un traitement de projection synthétisable afin de garantir que les molécules obtenues se trouvent toutes dans l'espace synthétisable. Cette méthode est nommée Graph GA-ReaSyn.

L'expérience est divisée en deux parties : l'une est l'optimisation générale des propriétés basée sur la fonction oracle TDC, et l'autre est l'optimisation ciblée de l'affinité de liaison pour l'époxyde hydrolase soluble (sEH).

Dans la mission TDC,Comme le montre le tableau ci-dessous, Graph GA-ReaSyn a surpassé toutes les méthodes de référence synthétiques basées sur les contraintes dans la métrique « AUC top-10 » sur 15 tâches d'optimisation, et son score d'accessibilité synthétique (score SA) était significativement supérieur à celui de Graph GA original, indiquant que ReaSyn a efficacement amélioré la synthétisabilité tout en maintenant les performances d'optimisation. En optimisation d'affinité sEH, ReaSyn a surpassé des méthodes telles que FragGFN, SynFlowNet et SyntheMol en termes d'affinité de liaison, de score SA et de similarité médicamenteuse (QED).En particulier, ses avantages en termes d’équilibre entre les propriétés cibles et la synthétisabilité sont mis en évidence.

Résultats d'optimisation des molécules synthétisables dirigées vers une cible dans les tâches TDC

Dans le but d’élargir la gamme de composés actifs synthétiques,ReaSyn utilise la recherche par faisceau pour générer plusieurs analogues structurellement similaires et synthétisables de composés actifs connus afin d'élargir la bibliothèque de molécules candidates. L'expérience a utilisé les inhibiteurs de JNK3 comme cible de recherche, sélectionnant les dix molécules les mieux notées de la base de données ZINC250k comme point de départ et générant 100 analogues pour chaque molécule.Évalué selon trois indicateurs, à savoir « taux analogique », « taux d’amélioration » et « taux de réussite », ReaSyn a surpassé les méthodes précédentes dans tous les indicateurs.

La prédiction des voies de synthèse pilotée par l'IA favorise l'innovation dans la conception de molécules synthétisables

Alors que les technologies de prédiction des voies de synthèse basées sur l'IA telles que ReaSyn se développent, les milieux universitaires et commerciaux du monde entier explorent également activement ce domaine, stimulant l'innovation dans la conception de molécules synthétisables à partir de différentes voies.


La recherche universitaire se concentre souvent sur les avancées dans les nouvelles méthodes et les mécanismes sous-jacents. Par exemple,Organa, un système robotique de bureau développé par l'Université de Toronto,En combinant la vision par ordinateur et un grand modèle de langage (LLM), il est possible de convertir des instructions en langage naturel en code χDL de langage de description chimique standard, d'automatiser certaines tâches de laboratoire de chimie et ainsi de convertir les instructions verbales des scientifiques en processus expérimentaux.

Mobile Robotic Chemist, un chimiste IA développé indépendamment par l'Université de Liverpool,688 expériences ont été réalisées en 8 jours, 1 000 formules catalytiques ont été étudiées en une semaine et un nouveau catalyseur a été découvert.


L’innovation dans le monde des affaires se concentre davantage sur la transformation des technologies avancées en productivité réelle et sur leur intégration dans les flux de travail existants.La coopération stratégique entre BenevolentAI, une société britannique spécialisée dans la recherche et le développement de médicaments basés sur l’intelligence artificielle, et Merck est très représentative.Le premier s'appuie sur les outils de conception chimique de sa plateforme d'IA complète, associés à des installations de laboratoire à Cambridge, au Royaume-Uni, pour fournir au pipeline de recherche et développement de médicaments de Merck un accompagnement complet, de l'identification du principe actif au développement préclinique des molécules candidates. L'essentiel réside dans l'exploitation des capacités de raisonnement des voies de synthèse des grands modèles de langage afin de garantir que les petites molécules générées présentent à la fois une activité et une synthétisabilité élevées, réduisant ainsi considérablement le cycle de conversion du concept aux molécules candidates.


Insilico Medicine, une société de biotechnologie axée sur l'IA, a démontré l'intérêt pratique de la conception d'accessibilité synthétique dans le développement de médicaments de bout en bout. Son candidat médicament INS018_055 contre la fibrose pulmonaire idiopathique, conçu grâce à l'IA générative, utilise le module de projection synthétisable intégré de type ReaSyn pourA obtenu un taux de réussite de 100 % dans la synthèse du TP3T dans les études précliniques,De plus, il ne faut que 18 mois entre la découverte de la cible et la détermination de la molécule candidate, soit 60% de moins que la moyenne du secteur.

Ces diverses explorations du monde universitaire et de l’industrie, bien qu’avec des points d’entrée et des voies techniques différents, pointent toutes vers un même objectif : améliorer notre capacité et notre efficacité dans la conception et la synthèse de molécules utiles grâce à des méthodes innovantes, et finalement insuffler un nouvel élan dans de nombreux domaines tels que la recherche et le développement de médicaments et le développement de nouveaux matériaux.

Liens de référence :
1.https://mp.weixin.qq.com/s/Mz64afMOOI_7m-Nqg_m5oQ
2.https://mp.weixin.qq.com/s/1Juv9z1-mUOR6Sip4KwvgQ
3.https://mp.weixin.qq.com/s/vhhb2OUtCRpbPLg8j4YsYQ