HyperAIHyperAI

Command Palette

Search for a command to run...

BioT5+: Auf dem Weg zu verallgemeinerter biologischer Verständnis durch IUPAC-Integration und Multitask-Fine-Tuning

Qizhi Pei Lijun Wu* Kaiyuan Gao Xiaozhuan Liang Yin Fang Jinhua Zhu Shufang Xie Tao Qin Rui Yan*

Zusammenfassung

Aktuelle Forschungstrends in der Computational Biology konzentrieren sich zunehmend auf die Integration von Text und biologischen Entitätsmodellen, insbesondere im Kontext von Molekülen und Proteinen. Allerdings stießen frühere Ansätze wie BioT5 auf Herausforderungen bei der Generalisierung über verschiedene Aufgaben hinweg und fehlte es ihnen an einer nuancierten Auffassung molekularer Strukturen, insbesondere in ihren textuellen Darstellungen (z.B. IUPAC). In dieser Arbeit wird BioT5+ vorgestellt, eine Erweiterung des BioT5-Frameworks, die darauf abzielt, biologische Forschung und Arzneimittelentwicklung zu verbessern. BioT5+ integriert mehrere innovative Merkmale: die Verwendung von IUPAC-Namen zur Verbesserung des molekularen Verständnisses, die Einbeziehung umfangreicher bio-textueller und molekularer Daten aus Quellen wie bioRxiv und PubChem, das multitask-basierte Anweisungstuning zur Generalisierung über verschiedene Aufgaben sowie eine numerische Tokenisierungstechnik für eine verbesserte Verarbeitung numerischer Daten. Diese Erweiterungen ermöglichen es BioT5+, die Lücke zwischen molekularen Darstellungen und ihren textuellen Beschreibungen zu schließen, ein umfassenderes Verständnis biologischer Entitäten zu bieten und das begründete Schließen aus bio-textuellen und bio-sequentiellen Daten erheblich zu verbessern. Das Modell wurde mit zahlreichen Experimenten vorab trainiert und weiter angepasst, darunter \emph{3 Arten von Problemen (Klassifikation, Regression, Generierung), 15 Arten von Aufgaben und 21 Benchmark-Datensätzen insgesamt}, was seine bemerkenswerte Leistung und den Stand der Technik in den meisten Fällen nachweist. BioT5+ zeichnet sich durch seine Fähigkeit aus, komplexe Beziehungen in biologischen Daten zu erfassen, wodurch es erheblich zur Bioinformatik und Computational Biology beiträgt. Unser Code ist unter \url{https://github.com/QizhiPei/BioT5} verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
BioT5+: Auf dem Weg zu verallgemeinerter biologischer Verständnis durch IUPAC-Integration und Multitask-Fine-Tuning | Paper | HyperAI