HyperAIHyperAI
il y a 12 jours

MolReFlect : Vers une alignement fine-grainé in-context entre les molécules et les textes

{Qing Li, Yuqiang Li, Dongzhan Zhou, Wenqi Fan, Di Zhang, Jingdi Lei, Wei Liu, Yunqing Liu, Jiatong Li}
MolReFlect : Vers une alignement fine-grainé in-context entre les molécules et les textes
Résumé

La découverte de molécules constitue un domaine de recherche fondamental, ayant une influence directe sur les médicaments que nous prenons ainsi que sur les matériaux que nous utilisons. Récemment, les grands modèles linguistiques (LLM) ont été largement adoptés pour la compréhension et la génération de molécules, mais l’alignement entre les molécules et leurs légendes associées reste un défi majeur. Les travaux antérieurs traitent souvent la molécule comme une chaîne SMILES générale ou un graphe moléculaire, négligeant ainsi les alignements à fine échelle entre les sous-structures moléculaires et les expressions textuelles descriptives, qui sont pourtant essentiels à des prédictions précises et explicables. Dans ce contexte, nous introduisons MolReFlect, un nouveau cadre pédagogique enseignant-apprenant conçu pour effectuer de manière contextuelle et fine l’alignement entre molécules et légendes. Notre approche utilise initialement un grand modèle linguistique enseignant pour étiqueter les alignements détaillés en extrayant directement des phrases clés à partir des légendes des molécules ou des chaînes SMILES, puis en les associant aux sous-structures ou caractéristiques correspondantes. Pour affiner ces alignements, nous proposons une méthode d’« Auto-réflexion sélective en contexte », qui récupère les résultats d’extraction antérieurs comme exemples contextuels afin de permettre au modèle enseignant de réfléchir et de guider un modèle apprenant plus petit à sélectionner parmi les résultats de réflexion en contexte et les extraits précédents. Enfin, nous améliorons le processus d’apprentissage du modèle apprenant grâce à une « Tuning moléculaire en contexte par chaîne de raisonnement », intégrant les alignements à fine échelle et les processus de raisonnement dans un format de chaîne de pensée. Nos résultats expérimentaux démontrent que MolReFlect permet à des LLM tels que Mistral-7B de surpasser significativement les méthodes antérieures, atteignant des performances SOTA sur le jeu de données ChEBI-20. Cette avancée améliore non seulement les capacités génératives des LLM dans la tâche de traduction molécule-légende, mais contribue également à un cadre plus explicite.

MolReFlect : Vers une alignement fine-grainé in-context entre les molécules et les textes | Articles de recherche récents | HyperAI