BioT5+: Auf dem Weg zu verallgemeinerter biologischer Verständnis durch IUPAC-Integration und Multitask-Fine-Tuning

Aktuelle Forschungstrends in der Computational Biology konzentrieren sich zunehmend auf die Integration von Text und biologischen Entitätsmodellen, insbesondere im Kontext von Molekülen und Proteinen. Allerdings stießen frühere Ansätze wie BioT5 auf Herausforderungen bei der Generalisierung über verschiedene Aufgaben hinweg und fehlte es ihnen an einer nuancierten Auffassung molekularer Strukturen, insbesondere in ihren textuellen Darstellungen (z.B. IUPAC). In dieser Arbeit wird BioT5+ vorgestellt, eine Erweiterung des BioT5-Frameworks, die darauf abzielt, biologische Forschung und Arzneimittelentwicklung zu verbessern. BioT5+ integriert mehrere innovative Merkmale: die Verwendung von IUPAC-Namen zur Verbesserung des molekularen Verständnisses, die Einbeziehung umfangreicher bio-textueller und molekularer Daten aus Quellen wie bioRxiv und PubChem, das multitask-basierte Anweisungstuning zur Generalisierung über verschiedene Aufgaben sowie eine numerische Tokenisierungstechnik für eine verbesserte Verarbeitung numerischer Daten. Diese Erweiterungen ermöglichen es BioT5+, die Lücke zwischen molekularen Darstellungen und ihren textuellen Beschreibungen zu schließen, ein umfassenderes Verständnis biologischer Entitäten zu bieten und das begründete Schließen aus bio-textuellen und bio-sequentiellen Daten erheblich zu verbessern. Das Modell wurde mit zahlreichen Experimenten vorab trainiert und weiter angepasst, darunter \emph{3 Arten von Problemen (Klassifikation, Regression, Generierung), 15 Arten von Aufgaben und 21 Benchmark-Datensätzen insgesamt}, was seine bemerkenswerte Leistung und den Stand der Technik in den meisten Fällen nachweist. BioT5+ zeichnet sich durch seine Fähigkeit aus, komplexe Beziehungen in biologischen Daten zu erfassen, wodurch es erheblich zur Bioinformatik und Computational Biology beiträgt. Unser Code ist unter \url{https://github.com/QizhiPei/BioT5} verfügbar.