HyperAIHyperAI
vor 2 Monaten

BioT5: Bereicherung der multimodalen Integration in der Biologie durch chemisches Wissen und natürlichsprachliche Assoziationen

Qizhi Pei; Wei Zhang; Jinhua Zhu; Kehan Wu; Kaiyuan Gao; Lijun Wu; Yingce Xia; Rui Yan
BioT5: Bereicherung der multimodalen Integration in der Biologie durch chemisches Wissen und natürlichsprachliche Assoziationen
Abstract

Neuere Fortschritte in der biologischen Forschung nutzen die Integration von Molekülen, Proteinen und natürlicher Sprache, um die Arzneimittelentwicklung zu verbessern. Aktuelle Modelle weisen jedoch mehrere Einschränkungen auf, wie die Erzeugung ungültiger molekularer SMILES (Simplified Molecular Input Line Entry System), die unteroptimale Nutzung kontextueller Informationen und die gleiche Behandlung strukturierter und unstrukturierter Wissensformen. Um diese Probleme anzugehen, schlagen wir $\mathbf{BioT5}$ vor, einen umfassenden Prätrainingsrahmen, der die multimodale Integration in der Biologie durch chemisches Wissen und natürlichsprachliche Assoziationen bereichert. $\mathbf{BioT5}$ verwendet SELFIES (Self-referencing Embedded Strings) für eine $100\%$ robuste Darstellung von Molekülen und extrahiert Wissen aus dem Kontext bio-entitativer Elemente in unstrukturierten biologischen Texten. Zudem unterscheidet $\mathbf{BioT5}$ zwischen strukturiertem und unstrukturiertem Wissen, was zu einer effektiveren Nutzung der Informationen führt. Nach dem Feinjustieren zeigt $\mathbf{BioT5}$ überlegen Leistungen in einem breiten Spektrum von Aufgaben und demonstriert seine starke Fähigkeit, zugrunde liegende Beziehungen und Eigenschaften von Bio-Entitäten zu erfassen. Unser Code ist unter $\href{https://github.com/QizhiPei/BioT5}{Github}$ verfügbar.

BioT5: Bereicherung der multimodalen Integration in der Biologie durch chemisches Wissen und natürlichsprachliche Assoziationen | Neueste Forschungsarbeiten | HyperAI