Command Palette
Search for a command to run...
BioT5: Bereicherung der multimodalen Integration in der Biologie durch chemisches Wissen und natürlichsprachliche Assoziationen
BioT5: Bereicherung der multimodalen Integration in der Biologie durch chemisches Wissen und natürlichsprachliche Assoziationen
Qizhi Pei Wei Zhang Jinhua Zhu Kehan Wu Kaiyuan Gao Lijun Wu Yingce Xia Rui Yan
Zusammenfassung
Neuere Fortschritte in der biologischen Forschung nutzen die Integration von Molekülen, Proteinen und natürlicher Sprache, um die Arzneimittelentwicklung zu verbessern. Aktuelle Modelle weisen jedoch mehrere Einschränkungen auf, wie die Erzeugung ungültiger molekularer SMILES (Simplified Molecular Input Line Entry System), die unteroptimale Nutzung kontextueller Informationen und die gleiche Behandlung strukturierter und unstrukturierter Wissensformen. Um diese Probleme anzugehen, schlagen wir BioT5 vor, einen umfassenden Prätrainingsrahmen, der die multimodale Integration in der Biologie durch chemisches Wissen und natürlichsprachliche Assoziationen bereichert. BioT5 verwendet SELFIES (Self-referencing Embedded Strings) für eine 100% robuste Darstellung von Molekülen und extrahiert Wissen aus dem Kontext bio-entitativer Elemente in unstrukturierten biologischen Texten. Zudem unterscheidet BioT5 zwischen strukturiertem und unstrukturiertem Wissen, was zu einer effektiveren Nutzung der Informationen führt. Nach dem Feinjustieren zeigt BioT5 überlegen Leistungen in einem breiten Spektrum von Aufgaben und demonstriert seine starke Fähigkeit, zugrunde liegende Beziehungen und Eigenschaften von Bio-Entitäten zu erfassen. Unser Code ist unter \href verfügbar.