Génération bidirectionnelle de structures et de propriétés à partir d'un seul modèle fondamental moléculaire

La réussite récente des grands modèles fondamentaux en intelligence artificielle a stimulé l’émergence de modèles pré-entraînés en chimie. Bien que l’intérêt croissant pour les grands modèles pré-entraînés moléculaires, capables de fournir des représentations informatives pour des tâches ultérieures, se soit accentué, les tentatives de mise en œuvre de méthodes d’entraînement multimodal sur le domaine moléculaire sont restées limitées. Afin de remédier à ce manque, nous proposons un nouveau modèle pré-entraîné multimodal moléculaire, intégrant les modalités de structure et de propriétés biochimiques, s’inspirant des avancées récentes des techniques d’apprentissage multimodal. Notre pipeline proposé, comprenant le traitement des données et les objectifs d’entraînement, aligne les caractéristiques de structure et de propriété dans un espace d’encodage commun, permettant au modèle de capturer efficacement les informations bidirectionnelles entre la structure moléculaire et ses propriétés. Ces contributions s’associent de manière synergique, permettant de traiter à la fois des tâches multimodales et unimodales à l’aide d’un seul modèle. À travers des expérimentations approfondies, nous démontrons que notre modèle possède des capacités remarquables pour résoudre divers défis chimiques significatifs, notamment la génération conditionnelle de molécules, la prédiction de propriétés, la classification moléculaire et la prédiction de réactions.