Empowerment de la découverte de molécules pour la traduction de légendes moléculaires avec des grands modèles linguistiques : Une perspective ChatGPT

La découverte de molécules joue un rôle crucial dans divers domaines scientifiques, contribuant à l'élaboration de matériaux et de médicaments sur mesure. Cependant, la plupart des méthodes actuelles dépendent fortement des experts du domaine, nécessitent un coût computationnel excessif ou souffrent d'une performance sous-optimale. En revanche, les grands modèles linguistiques (LLMs), tels que ChatGPT, ont montré des performances remarquables dans diverses tâches inter-modales grâce à leurs capacités puissantes en compréhension du langage naturel, généralisation et apprentissage en contexte (ICL), offrant ainsi des opportunités sans précédent pour faire progresser la découverte de molécules. Malgré plusieurs travaux antérieurs ayant tenté d'appliquer les LLMs à cette tâche, le manque de corpus spécifique au domaine et les difficultés liées à l'entraînement de LLMs spécialisés restent des défis majeurs.Dans ce travail, nous proposons un cadre novateur basé sur les LLMs (MolReGPT) pour la traduction molécule-legacy, où un paradigme d'apprentissage moléculaire par few-shot en contexte est introduit afin d'exploiter les capacités d'apprentissage en contexte des LLMs comme ChatGPT sans pré-entraînement ni ajustement spécifique au domaine. MolReGPT utilise le principe de similarité moléculaire pour récupérer des molécules similaires et leurs descriptions textuelles dans une base de données locale, permettant aux LLMs d'apprendre les connaissances relatives à la tâche à partir d'exemples contextuels. Nous évaluons l'efficacité de MolReGPT en termes de traduction molécule-legacy, y compris la compréhension des molécules et la génération de molécules basée sur le texte. Les résultats expérimentaux montrent que, comparativement aux modèles ajustés finement, MolReGPT surpasses MolT5-base et se compare favorablement à MolT5-large sans entraînement supplémentaire. À notre connaissance, MolReGPT est le premier travail à exploiter les LLMs par apprentissage en contexte dans la traduction molécule-legacy pour faire avancer la découverte de molécules. Notre travail étend le champ d'application des LLMs tout en offrant un nouveau paradigme pour la découverte et l'élaboration de molécules.Note : Le terme "legacy" n'est pas couramment utilisé dans ce contexte en français. Il pourrait être remplacé par "caption" (légende) ou "description" selon le sens exact recherché. Voici une version corrigée :La découverte de molécules joue un rôle crucial dans divers domaines scientifiques, contribuant à l'élaboration de matériaux et de médicaments sur mesure. Cependant, la plupart des méthodes actuelles dépendent fortement des experts du domaine, nécessitent un coût computationnel excessif ou souffrent d'une performance sous-optimale. En revanche, les grands modèles linguistiques (LLMs), tels que ChatGPT, ont montré des performances remarquables dans diverses tâches inter-modales grâce à leurs capacités puissantes en compréhension du langage naturel, généralisation et apprentissage en contexte (ICL), offrant ainsi des opportunités sans précédent pour faire progresser la découverte de molécules. Malgré plusieurs travaux antérieurs ayant tenté d'appliquer les LLMs à cette tâche, le manque de corpus spécifique au domaine et les difficultés liées à l'entraînement de LLMs spécialisés restent des défis majeurs.Dans ce travail, nous proposons un cadre novateur basé sur les LLMs (MolReGPT) pour la traduction légende-molécule (molecule-caption translation), où un paradigme d'apprentissage moléculaire par few-shot en contexte est introduit afin d'exploiter les capacités d'apprentissage en contexte des LLMs comme ChatGPT sans pré-entraînement ni ajustement spécifique au domaine. MolReGPT utilise le principe de similarité moléculaire pour récupérer des molécules similaires et leurs descriptions textuelles dans une base de données locale, permettant aux LLMs d'apprendre les connaissances relatives à la tâche à partir d'exemples contextuels. Nous évaluons l'efficacité de MolReGPT en termes de traduction légende-molécule (molecule-caption translation), y compris la compréhension des molécules et la génération de molécules basée sur le texte. Les résultats expérimentaux montrent que, comparativement aux modèles ajustés finement, MolReGPT surpasses MolT5-base et se compare favorablement à MolT5-large sans entraînement supplémentaire. À notre connaissance, MolReGPT est le premier travail à exploiter les LLMs par apprentissage en contexte dans la traduction légende-molécule (molecule-caption translation) pour faire avancer la découverte de molécules. Notre travail étend le champ d'application des LLMs tout en offrant un nouveau paradigme pour la découverte et l'élaboration de molécules.