Un Modèle Fondamental Multimodal Moléculaire Associant les Graphes Moléculaires à la Langue Naturelle

Bien que l'intelligence artificielle (IA) ait réalisé des progrès significatifs dans la compréhension des molécules dans de nombreux domaines, les modèles existants acquièrent généralement une seule capacité cognitive à partir d'une seule modalité moléculaire. Étant donné que la hiérarchie des connaissances moléculaires est profonde, même les humains apprennent à partir de différentes modalités, y compris des diagrammes intuitifs et des textes professionnels, pour faciliter leur compréhension. Inspirés par cette approche, nous proposons un modèle fondamental moléculaire multimodal pré-entraîné à partir de graphes moléculaires et de données textuelles sémantiquement liées (extraites d'articles publiés dans l'Index des citations scientifiques) via un apprentissage par contraste. Ce modèle d'IA représente une tentative cruciale qui établit directement un pont entre les graphes moléculaires et le langage naturel. Importamment, en capturant les informations spécifiques et complémentaires des deux modalités, notre modèle proposé peut mieux saisir l'expertise moléculaire. Les résultats expérimentaux montrent que notre modèle non seulement présente des performances prometteuses dans les tâches inter-modales telles que la recherche inter-modale et la légendage de molécules, mais aussi améliore la prédiction des propriétés moléculaires et possède la capacité de générer des graphes moléculaires significatifs à partir de descriptions en langage naturel. Nous croyons que notre modèle aura un impact considérable sur les domaines alimentés par l'IA, tels que la biologie, la chimie, les matériaux, l'environnement et la médecine, entre autres.