BioT5+ : Vers une compréhension biologique généralisée avec l'intégration de l'IUPAC et l'ajustement multi-tâches

Les tendances de recherche récentes en biologie computationnelle se sont de plus en plus concentrées sur l'intégration de la modélisation du texte et des entités biologiques, notamment dans le contexte des molécules et des protéines. Cependant, les efforts antérieurs comme BioT5 ont rencontré des défis pour généraliser à travers diverses tâches et manquaient d'une compréhension nuancée des structures moléculaires, en particulier dans leurs représentations textuelles (par exemple, IUPAC). Cet article présente BioT5+, une extension du cadre BioT5, conçue pour améliorer la recherche biologique et la découverte de médicaments. BioT5+ intègre plusieurs fonctionnalités innovantes : l'incorporation des noms IUPAC pour la compréhension moléculaire, l'inclusion de données textuelles et moléculaires étendues provenant de sources telles que bioRxiv et PubChem, l'ajustement d'instructions multi-tâches pour une généralité accrue entre les tâches, et une technique de tokenisation numérique pour un meilleur traitement des données numériques. Ces améliorations permettent à BioT5+ de combler le fossé entre les représentations moléculaires et leurs descriptions textuelles, offrant une compréhension plus complète des entités biologiques et améliorant considérablement le raisonnement ancré dans les textes biologiques et les séquences biologiques. Le modèle est pré-entraîné et affiné avec un grand nombre d'expériences, incluant \emph{3 types de problèmes (classification, régression, génération), 15 types de tâches et 21 jeux de données de référence au total}, démontrant des performances remarquables et des résultats à la pointe de l'état de l'art dans la plupart des cas. BioT5+ se distingue par sa capacité à capturer des relations complexes dans les données biologiques, contribuant ainsi significativement à l'informatique biomédicale et à la biologie computationnelle. Notre code est disponible sur \url{https://github.com/QizhiPei/BioT5}.