Command Palette
Search for a command to run...
BioT5 : Enrichir l'intégration multimodale en biologie grâce aux connaissances chimiques et aux associations linguistiques naturelles
BioT5 : Enrichir l'intégration multimodale en biologie grâce aux connaissances chimiques et aux associations linguistiques naturelles
Qizhi Pei Wei Zhang Jinhua Zhu Kehan Wu Kaiyuan Gao Lijun Wu Yingce Xia Rui Yan
Résumé
Les récentes avancées en recherche biologique exploitent l'intégration de molécules, de protéines et de langage naturel pour améliorer la découverte de médicaments. Cependant, les modèles actuels présentent plusieurs limitations, notamment la génération de SMILES moléculaires invalides, une utilisation insuffisante des informations contextuelles et un traitement équivalent des connaissances structurées et non structurées. Pour remédier à ces problèmes, nous proposons BioT5, un cadre d'apprentissage préalable complet qui enrichit l'intégration multimodale en biologie avec des connaissances chimiques et des associations de langage naturel. BioT5 utilise SELFIES pour des représentations moléculaires robustes à 100% et extrait des connaissances du contexte environnant des entités biologiques dans la littérature biologique non structurée. De plus, BioT5 distingue entre les connaissances structurées et non structurées, ce qui conduit à une utilisation plus efficace de l'information. Après le réglage fin, BioT5 montre une performance supérieure sur une large gamme de tâches, démontrant sa forte capacité à capturer les relations et propriétés sous-jacentes des entités biologiques. Notre code est disponible sur \href.