GIT-Mol : Un modèle linguistique multimodal de grande taille pour la science moléculaire avec graphes, images et texte

Les grands modèles de langage ont réalisé des progrès significatifs dans le traitement du langage naturel, permettant des applications innovantes en science moléculaire grâce au traitement des représentations textuelles des molécules. Cependant, la plupart des modèles de langage existants ne parviennent pas à capturer les informations riches associées aux structures moléculaires complexes ou aux images. Dans cet article, nous présentons GIT-Mol, un grand modèle de langage multi-modale qui intègre les informations issues du graphe, de l'image et du texte. Pour faciliter l'intégration de données moléculaires multi-modales, nous proposons GIT-Former, une nouvelle architecture capable d'aligner toutes les modalités dans un espace latent unifié. Nous obtenons une augmentation de précision de 5 % à 10 % pour la prédiction des propriétés et une amélioration de 20,2 % pour la validité de la génération de molécules par rapport aux modèles de référence. Grâce à notre stratégie de traduction moléculaire any-to-language (de toute modalité vers le langage), notre modèle présente un potentiel pour effectuer davantage de tâches en aval, telles que la reconnaissance des noms de composés et la prédiction des réactions chimiques.