HyperAIHyperAI

Command Palette

Search for a command to run...

ProtTrans: نحو فك شفرة لغة الحياة من خلال التعلم العميق ذاتي الإشراف والحوسبة عالية الأداء

الملخص

توفّر الأحياء الحاسوبية وعلم المعلومات البيولوجي مناجم بيانات ضخمة من تسلسلات البروتينات، وهي مثالية لاستخدام نماذج اللغة المستوحاة من معالجة اللغة الطبيعية (NLP). تصل هذه النماذج إلى حدود جديدة في التنبؤ بتكاليف استدلال منخفضة. هنا، قمنا بتدريب نموذجين ذاتيين متتابعين (Transformer-XL، XLNet) وأربعة نماذج ذاتية مشفرة (BERT، Albert، Electra، T5) على بيانات من UniRef و BFD تحتوي على ما يصل إلى 393 مليار حمض أميني. تم تدريب النماذج اللغوية على جهاز الحوسبة الفائقة Summit باستخدام 5616 وحدة معالجة رسومية (GPUs) ومجموعة معالجات الوحدات المخصصة للتعلم العميق (TPU Pod) بسعة تصل إلى 1024 نواة. كشفت تقنيات تخفيض البعد أن الترميز الأولي للبروتينات من البيانات غير المصنفة قد ألقى الضوء على بعض الخصائص الفيزيائية والكيميائية لتسلسلات البروتينات. قمنا بالتحقق من فائدة استخدام هذه الترميزات كمدخل حصري لعدة مهام لاحقة. كانت المهمة الأولى هي التنبؤ بالهيكل الثانوي للبروتين لكل موقع فردي (دقة ثلاثية الأوضاع Q3 = 81٪-87٪)؛ وكانت المهام الثانية هي التنبؤ بموقع البروتين داخل الخلية لكل بروتين (دقة عشرية الأوضاع: Q10 = 81٪) والتوقع بين البروتينات الغشائية والقابلة للذوبان في الماء (دقة ثنائية الأوضاع Q2 = 91٪). بالنسبة للتنبؤات الفردية للمواقع، أدى نقل أكثر الترميزات إفادةً (ProtT5) لأول مرة إلى تجاوز أفضل التقنيات الموجودة دون استخدام المعلومات التطورية، مما يتجاوز الحاجة إلى البحث في قواعد البيانات باهظة الثمن. مجتمعةً، تشير النتائج إلى أن نماذج اللغة الخاصة بالبروتينات قد تعلمت بعض قواعد "لغة الحياة". لتسهيل الأعمال المستقبلية، أطلقنا نماذجنا على الرابط https://github.com/agemagician/ProtTrans.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp