BioMedGPT : Transformer pré-entraînée générative multimodale ouverte pour la biomédecine

Les modèles fondamentaux (FMs) ont fait preuve d'une performance remarquable sur une large gamme de tâches spécifiques dans de nombreux domaines. Toutefois, les modèles fondamentaux généralistes rencontrent souvent des difficultés face à des problèmes spécifiques à un domaine, en raison de leur accès limité aux données d'entraînement propriétaires propres à un domaine particulier. En biomédecine, plusieurs modalités biologiques existent, telles que les molécules, les protéines et les cellules, qui sont codées par le « langage de la vie » et présentent des écarts significatifs par rapport au langage naturel humain. Dans ce travail, nous introduisons BioMedGPT, un modèle transformer pré-entraîné génératif multimodal ouvert pour la biomédecine, conçu pour combler le fossé entre le langage de la vie et le langage naturel humain. BioMedGPT permet aux utilisateurs d’interagir facilement avec diverses modalités biologiques via des textes libres, ce qui constitue une première dans ce domaine. BioMedGPT aligne différentes modalités biologiques avec le langage naturel à l’aide d’un grand modèle linguistique génératif, appelé BioMedGPT-LM. Nous publions BioMedGPT-10B, qui unifie les espaces de caractéristiques des molécules, des protéines et du langage naturel grâce à une encodage et un alignement efficaces. Après fine-tuning, BioMedGPT-10B surpasse ou égale les performances humaines et celles de modèles fondamentaux généralistes bien plus volumineux sur la tâche de question-réponse biomédicale. Il démontre également des performances prometteuses sur les tâches de question-réponse portant sur les molécules et les protéines, ce qui pourrait considérablement accélérer la découverte de nouveaux médicaments et de cibles thérapeutiques. En outre, BioMedGPT-LM-7B constitue le premier grand modèle linguistique génératif basé sur Llama2 dans le domaine biomédical, ce qui en fait un modèle particulièrement adapté aux usages commerciaux. Les deux modèles, BioMedGPT-10B et BioMedGPT-LM-7B, sont rendus open-source à la communauté de recherche. Par ailleurs, nous mettons également à disposition des jeux de données soigneusement curatifs destinés à l’alignement multimodal, à savoir PubChemQA et UniProtQA. Tous les modèles, le code source et les jeux de données sont disponibles à l’adresse suivante : \url{https://github.com/PharMolix/OpenBioMed}.