HyperAIHyperAI
il y a 2 mois

Amélioration des instructions par les propriétés pour la génération multi-tâche de molécules avec des grands modèles linguistiques

Lin, Xuan ; Chen, Long ; Wang, Yile ; Zeng, Xiangxiang ; Yu, Philip S.
Amélioration des instructions par les propriétés pour la génération multi-tâche de molécules avec des grands modèles linguistiques
Résumé

Les grands modèles de langage (LLMs) sont largement utilisés dans diverses tâches de traitement du langage naturel, telles que la réponse aux questions et la traduction automatique. Cependant, en raison du manque de données étiquetées et des difficultés liées à l'annotation manuelle des propriétés biochimiques, les performances pour les tâches de génération moléculaire restent limitées, en particulier pour les tâches impliquant des contraintes multi-propriétés. Dans ce travail, nous présentons un cadre en deux étapes appelé PEIT (Property Enhanced Instruction Tuning) pour améliorer les LLMs dans les tâches liées aux molécules. Dans la première étape, nous utilisons des descriptions textuelles, des chaînes SMILES et des propriétés biochimiques comme entrées multimodales pour pré-entraîner un modèle nommé PEIT-GEN, en alignant les représentations multimodales afin de synthétiser des données d'instruction. Dans la deuxième étape, nous ajustons finement des LLMs open source existants avec les données synthétisées, le modèle résultant PEIT-LLM étant capable de traiter la légendage moléculaire, la génération moléculaire basée sur le texte, la prédiction des propriétés moléculaires et nos nouvelles tâches de génération moléculaire multi-contraintes. Les résultats expérimentaux montrent que notre modèle pré-entraîné PEIT-GEN surpasse MolT5 et BioT5 dans le légendage moléculaire, démontrant une bonne alignment entre les descriptions textuelles, les structures et les propriétés biochimiques. De plus, PEIT-LLM montre des améliorations prometteuses dans la génération moléculaire multi-tâche, prouvant l'évolutivité du cadre PEIT pour diverses tâches moléculaires. Nous mettons à disposition le code source, les données d'instruction construites et les points de contrôle du modèle sur https://github.com/chenlong164/PEIT.

Amélioration des instructions par les propriétés pour la génération multi-tâche de molécules avec des grands modèles linguistiques | Articles de recherche récents | HyperAI