HyperAIHyperAI
منذ 2 أشهر

BioT5+: نحو فهم بيولوجي شامل مع دمج IUPAC و ضبط متعدد المهام

Qizhi Pei; Lijun Wu; Kaiyuan Gao; Xiaozhuan Liang; Yin Fang; Jinhua Zhu; Shufang Xie; Tao Qin; Rui Yan
BioT5+: نحو فهم بيولوجي شامل مع دمج IUPAC و ضبط متعدد المهام
الملخص

الاتجاهات البحثية الحديثة في علم الأحياء الحاسوبي تركز بشكل متزايد على دمج نماذج النصوص والكيانات البيولوجية، خاصة في سياق الجزيئات والبروتينات. ومع ذلك، واجهت الجهود السابقة مثل BioT5 تحديات في التعميم عبر المهام المتنوعة وافتقرت إلى فهم دقيق لبنيات الجزيئات، خاصة في تمثيلاتها النصية (مثل IUPAC). يقدم هذا البحث BioT5+، وهو توسيع للإطار BioT5 مصمم لتعزيز البحث البيولوجي واكتشاف الأدوية. يضم BioT5+ عدة ميزات جديدة: دمج أسماء IUPAC لفهم الجزيئات، تضمين كميات كبيرة من بيانات النصوص البيولوجية والجزيئات من مصادر مثل bioRxiv و PubChem، ضبط تعليمي متعدد المهام لتحقيق التعميم عبر المهام، وتقنية رمزية رقمية لتحسين معالجة البيانات العددية. تسمح هذه التعديلات لـ BioT5+ بسد الفجوة بين تمثيلات الجزيئات ووصفها النصي، مما يوفر فهماً أكثر شمولًا للكيانات البيولوجية ويحسن بشكل كبير الاستدلال المستند إلى البيانات في النصوص البيولوجية والتواليات البيولوجية. تم تدريب النموذج مسبقًا وتغريته بدقة باستخدام عدد كبير من التجارب، بما في ذلك \emph{3 أنواع من المشكلات (تصنيف، تقدير عددي، إنشاء)، 15 نوعًا من المهام، و 21 مجموعة بيانات معيارية إجمالية}، مما يظهر أدائه المتميز ونتائجه الرائدة في معظم الحالات. يتميز BioT5+ بقدرته على التقاط العلاقات المعقدة في البيانات البيولوجية، مما يساهم بشكل كبير في علم المعلومات البيولوجية وعلم الأحياء الحاسوبي. يمكن الوصول إلى شفرتنا البرمجية من خلال الرابط \url{https://github.com/QizhiPei/BioT5}.