HyperAIHyperAI
il y a 17 jours

CoTox : Raisonnement et prédiction de la toxicité moléculaire fondés sur la chaîne de raisonnement

Jueon Park, Yein Park, Minju Song, Soyon Park, Donghyeon Lee, Seungheun Baek, Jaewoo Kang
CoTox : Raisonnement et prédiction de la toxicité moléculaire fondés sur la chaîne de raisonnement
Résumé

La toxicité des médicaments reste un défi majeur dans le développement pharmaceutique. Bien que les modèles récents d’apprentissage automatique aient amélioré la prédiction in silico de la toxicité, leur dépendance aux données annotées et leur faible interprétabilité limitent leur application, en particulier pour capturer les effets toxiques spécifiques à un organe, souvent déclenchés par des mécanismes biologiques complexes. Les grands modèles linguistiques (LLM) offrent une alternative prometteuse grâce à leur capacité de raisonnement étape par étape et à leur intégration de données textuelles, mais les approches antérieures manquent de contexte biologique et de justifications transparentes. Pour surmonter cette limitation, nous proposons CoTox, un cadre novateur qui intègre les LLM avec un raisonnement en chaîne de pensée (chain-of-thought, CoT) pour la prédiction multi-toxicité. CoTox combine des données sur les structures chimiques, les voies biologiques et les termes de la classification des ontologies géniques (GO) afin de générer des prédictions de toxicité interprétables par un raisonnement progressif. En utilisant GPT-4o, nous démontrons que CoTox surpasse à la fois les modèles traditionnels d’apprentissage automatique et les modèles d’apprentissage profond. Nous évaluons également ses performances sur divers LLM afin d’identifier les contextes où CoTox s’avère le plus efficace. Par ailleurs, nous constatons que la représentation des structures chimiques par des noms IUPAC — plus facilement compréhensibles par les LLM que les notations SMILES — améliore significativement la capacité de raisonnement du modèle et sa performance prédictive. Pour illustrer son utilité pratique dans le développement de médicaments, nous simulons le traitement de types cellulaires pertinents avec des composés pharmaceutiques, puis intégrons le contexte biologique résultant dans le cadre CoTox. Cette approche permet à CoTox de générer des prédictions de toxicité alignées avec les réponses physiologiques observées, comme le montre une étude de cas. Ces résultats mettent en évidence le potentiel des cadres basés sur les LLM à améliorer l’interprétabilité et à soutenir l’évaluation précoce de la sécurité des médicaments. Le code et les prompts utilisés dans ce travail sont disponibles à l’adresse suivante : https://github.com/dmis-lab/CoTox.