HyperAIHyperAI
منذ 2 أشهر

BioT5: تخصيب التكامل متعدد الوسائط في علم الأحياء بالمعرفة الكيميائية وروابط اللغة الطبيعية

Qizhi Pei; Wei Zhang; Jinhua Zhu; Kehan Wu; Kaiyuan Gao; Lijun Wu; Yingce Xia; Rui Yan
BioT5: تخصيب التكامل متعدد الوسائط في علم الأحياء بالمعرفة الكيميائية وروابط اللغة الطبيعية
الملخص

التطورات الحديثة في البحث البيولوجي تستفيد من دمج الجزيئات والبروتينات واللغة الطبيعية لتعزيز اكتشاف الأدوية. ومع ذلك، تظهر النماذج الحالية عدة قيود، مثل إنتاج تمثيلات جزيئية غير صالحة (SMILES)، وعدم الاستفادة الكافية من المعلومات السياقية، ومعاملة المعرفة المهيكلة وغير المهيكلة على قدم المساواة. لمعالجة هذه القضايا، نقترح $\mathbf{BioT5}$، وهو إطار شامل للتدريب الأولي يثرِّي الدمج متعدد الوسائط في البيولوجيا بالمعرفة الكيميائية وروابط اللغة الطبيعية. يستخدم $\mathbf{BioT5}$ نظام SELFIES لتحقيق تمثيلات جزيئية صلبة بنسبة $100\%$ ويستخرج المعرفة من السياق المحيط بالكيانات البيولوجية في الأدبيات البيولوجية غير المهيكلة. علاوة على ذلك، يميز $\mathbf{BioT5}$ بين المعرفة المهيكلة والمعرفة غير المهيكلة، مما يؤدي إلى استخدام أكثر فعالية للمعلومات. بعد التحسين الدقيق، أظهر BioT5 أداءً متفوقًا في مجموعة واسعة من المهام، مما يدل على قدرته القوية على التقاط العلاقات والخصائص الأساسية للكيانات البيولوجية. رمزنا البرمجي متاح على $\href{https://github.com/QizhiPei/BioT5}{Github}$.

BioT5: تخصيب التكامل متعدد الوسائط في علم الأحياء بالمعرفة الكيميائية وروابط اللغة الطبيعية | أحدث الأوراق البحثية | HyperAI