Uni-Mol : un cadre universel d'apprentissage de représentations moléculaires 3D

L’apprentissage des représentations moléculaires (MRL) a suscité un intérêt considérable en raison de son rôle crucial dans l’apprentissage à partir de données supervisées limitées, notamment pour des applications telles que la conception de médicaments. Dans la plupart des méthodes de MRL, les molécules sont traitées comme des séquences unidimensionnelles de tokens ou comme des graphes topologiques bidimensionnels, ce qui limite leur capacité à intégrer des informations en 3D pour les tâches ultérieures, et rend particulièrement difficile la prédiction ou la génération de géométrie 3D. Dans ce travail, nous proposons Uni-Mol, un cadre universel d’apprentissage des représentations moléculaires qui étend significativement les capacités de représentation et le champ d’application des approches de MRL. Uni-Mol est composé de deux modèles reposant sur la même architecture d’encodeur SE(3)-équiva-riante : un modèle pré-entraîné sur 209 millions de conformations moléculaires, et un modèle pré-entraîné sur 3 millions de données candidates de poches protéiques. Ces deux modèles sont utilisés indépendamment pour des tâches distinctes, et combinés lorsqu’ils sont appliqués à des tâches de liaison molécule-protéine. En intégrant de manière adéquate les informations en 3D, Uni-Mol bat les meilleures performances actuelles (SOTA) dans 14 des 15 tâches de prédiction de propriétés moléculaires. En outre, Uni-Mol obtient des résultats supérieurs dans des tâches spatiales en 3D, telles que la prédiction de la configuration de liaison molécule-protéine ou la génération de conformations moléculaires. Enfin, nous démontrons que Uni-Mol peut être efficacement appliqué à des tâches à faible nombre d’exemples, comme la prédiction de la druggabilité des poches. Le modèle et les données seront rendus accessibles au public à l’adresse suivante : https://github.com/dptech-corp/Uni-Mol.