ProtTrans: نحو فك شفرة لغة الحياة من خلال التعلم العميق ذاتي الإشراف والحوسبة عالية الأداء

توفّر الأحياء الحاسوبية وعلم المعلومات البيولوجي مناجم بيانات ضخمة من تسلسلات البروتينات، وهي مثالية لاستخدام نماذج اللغة المستوحاة من معالجة اللغة الطبيعية (NLP). تصل هذه النماذج إلى حدود جديدة في التنبؤ بتكاليف استدلال منخفضة. هنا، قمنا بتدريب نموذجين ذاتيين متتابعين (Transformer-XL، XLNet) وأربعة نماذج ذاتية مشفرة (BERT، Albert، Electra، T5) على بيانات من UniRef و BFD تحتوي على ما يصل إلى 393 مليار حمض أميني. تم تدريب النماذج اللغوية على جهاز الحوسبة الفائقة Summit باستخدام 5616 وحدة معالجة رسومية (GPUs) ومجموعة معالجات الوحدات المخصصة للتعلم العميق (TPU Pod) بسعة تصل إلى 1024 نواة. كشفت تقنيات تخفيض البعد أن الترميز الأولي للبروتينات من البيانات غير المصنفة قد ألقى الضوء على بعض الخصائص الفيزيائية والكيميائية لتسلسلات البروتينات. قمنا بالتحقق من فائدة استخدام هذه الترميزات كمدخل حصري لعدة مهام لاحقة. كانت المهمة الأولى هي التنبؤ بالهيكل الثانوي للبروتين لكل موقع فردي (دقة ثلاثية الأوضاع Q3 = 81٪-87٪)؛ وكانت المهام الثانية هي التنبؤ بموقع البروتين داخل الخلية لكل بروتين (دقة عشرية الأوضاع: Q10 = 81٪) والتوقع بين البروتينات الغشائية والقابلة للذوبان في الماء (دقة ثنائية الأوضاع Q2 = 91٪). بالنسبة للتنبؤات الفردية للمواقع، أدى نقل أكثر الترميزات إفادةً (ProtT5) لأول مرة إلى تجاوز أفضل التقنيات الموجودة دون استخدام المعلومات التطورية، مما يتجاوز الحاجة إلى البحث في قواعد البيانات باهظة الثمن. مجتمعةً، تشير النتائج إلى أن نماذج اللغة الخاصة بالبروتينات قد تعلمت بعض قواعد "لغة الحياة". لتسهيل الأعمال المستقبلية، أطلقنا نماذجنا على الرابط https://github.com/agemagician/ProtTrans.