تعرف على مجموعة بيانات بنية البروتين PDB وراء AlphaFold 2 في مقال واحد

تمكنت خوارزمية الجيل الأحدث من DeepMind، AlphaFold 2، من التغلب على المنافسين الآخرين بشكل كامل في مسابقة CASP، والتي أطلق عليها مؤخرًا اسم "أولمبياد البروتين"، وحققت اختراقات مذهلة، مما أثار صدمة دائرة البحث العلمي بأكملها. وبعد أن أذهلتنا نتيجة هذا البحث العلمي، دعونا نلقي نظرة على مجموعة البيانات التي تقف وراء الخوارزمية.
خلال اليومين الماضيين، تعرضنا لقصف من الأخبار حول خوارزمية الذكاء الاصطناعي الجديدة AlphaFold 2 من DeepMind، وخاصة في العالم البيولوجي، والتي يمكن القول إنها فتحت الباب أمام تحقيق إنجاز تاريخي.
وبحسب الإعلان الرسمي لشركة DeepMind، نجحت خوارزمية التعلم العميق AlphaFold 2 في حل مشاكل كبيرة في المجال البيولوجي على مدى السنوات الخمسين الماضية.
يمكن للخوارزمية التنبؤ بدقة بالبنية ثلاثية الأبعاد للبروتينات بناءً على تسلسل الأحماض الأمينية الخاصة بها، بدقة تضاهي الهياكل ثلاثية الأبعاد التي تم حلها باستخدام تقنيات تجريبية مثل المجهر الإلكتروني بالتبريد (CryoEM)، أو الرنين المغناطيسي النووي، أو علم البلورات بالأشعة السينية.

لقد أثار هذا الحدث المهم حماس علماء الأحياء، ولكنه جعل أيضًا العديد من الأشخاص في هذه الصناعة يرتجفون من الخوف، وقالوا إنهم سيغيرون مساراتهم المهنية لتعلم التعلم العميق.
ومع ذلك، بينما ينتبه الجميع إلى نتيجة هذا البحث العلمي، لا تنسوا البطل الذي يقف وراءه—— مجموعة بيانات بنية البروتين PDB، وهي مجموعة بيانات مخصصة لجمع بيانات بنية ثلاثية الأبعاد للبروتينات والأحماض النووية.
هذه المجموعة من البيانات ضرورية لتحقيق اختراق رائد
وبحسب شركة DeepMind، قام الفريق بتدريب النظام على البيانات العامة.تأتي هذه البيانات من مجموعة بيانات بنية البروتين PDB وقاعدة البيانات الكبيرة UniProt التي تحتوي على تسلسلات بروتينية من هياكل غير معروفة، والتي تشمل معًا حوالي 170.000 بنية بروتينية.
في،PDB هي مجموعة بيانات مخصصة للبنية ثلاثية الأبعاد للبروتينات والأحماض النووية. لها تاريخ طويل جدًا، يعود تاريخه إلى عام 1971.
قرر والتر هاملتون من مختبر بروكهافن الوطني في الولايات المتحدة إنشاء قاعدة البيانات هذه. في أكتوبر 1998، تم نقل قاعدة بيانات البروتينات إلى التعاون البحثي في المعلوماتية الحيوية البنيوية (RCSB)، والذي كان يرأسه هيلين م. بيرمان من جامعة روتجرز، وهي أيضًا عضو في RCSB.

في عام 2003،تطورت قاعدة بيانات البروتين إلى منظمة دولية، wwPDB (قاعدة بيانات البروتين العالمية)، للإشراف على موارد قاعدة بيانات البروتين. كما يوفر أعضاء آخرون في wwPDB، بما في ذلك PDBe (أوروبا)، وRCSB (الولايات المتحدة الأمريكية)، وPDBj (اليابان)، مراكز لتجميع البيانات ومعالجتها ونشرها لـ PDB.

ومن الجدير بالذكر أنه على الرغم من أن البيانات الموجودة في قاعدة بيانات البروتينات يتم تقديمها من قبل علماء من جميع أنحاء العالم، فإن كل البيانات المقدمة سيتم مراجعتها وشرحها من قبل موظفي قاعدة بيانات البروتينات للتحقق مما إذا كانت البيانات معقولة. أصبحت قاعدة بيانات البروتين والبرامج التي توفرها متاحة الآن مجانًا للجمهور.
أكثر من 140 ألف مبنى، ما هي المعلومات الموجودة في قاعدة بيانات البروتين؟
على مدى العقود القليلة الماضية، زاد عدد الهياكل في قاعدة بيانات البروتين بمعدل أسي تقريبًا:
- 100 في عام 1982؛
- 1000 في عام 1993؛
- 10,000 في عام 1999؛
- 100 ألف في عام 2014.
ومع ذلك، يبدو أن معدل تراكم الهياكل البروتينية الجديدة قد استقر منذ عام 2007.

يستخدم علماء الأحياء البنيوية في جميع أنحاء العالم أساليب مثل علم البلورات بالأشعة السينية، وتقنية الرنين المغناطيسي النووي، والمجهر الإلكتروني بالتبريد لتحديد موضع كل ذرة في الجزيء بالنسبة لبعضها البعض. ثم يقومون بإرسال هذه المعلومات الهيكلية، والتي يتم شرحها بواسطة wwPDB ونشرها علنًا في قاعدة البيانات.
يمكنك البحث عن هياكل الريبوسومات، والأورام السرطانية، وأهداف الأدوية، وحتى الفيروسات بأكملها في مجموعة بيانات قاعدة بيانات البروتينات.ومع ذلك، فإن العدد الهائل من الهياكل المؤرشفة في قاعدة بيانات البروتين يجعل العثور على المعلومات التي تحتاجها مهمة شاقة.
تتضمن المعلومات الموجودة في مجموعة بيانات PDB بشكل أساسي ما يلي:مصدر البروتين/الأحماض النووية، وتركيب جزيئات البروتين/الأحماض النووية، والإحداثيات الذرية، والطرق التجريبية المستخدمة لتحديد البنية، فضلاً عن البيانات والمعلومات الأخرى مثل عوامل درجة الحرارة ومحددات البنية.

كيفية التنزيل؟
أصبحت مجموعة البيانات متاحة الآن على الموقع الرسمي لـ Hyperneuron وopenbayes.com. يزور:https://orion.hyper.ai/datasets/13906 أو انقر فوق "قراءة النص الأصلي" للحصول على مجموعة البيانات بنقرة واحدة.
■ تفاصيل مجموعة بيانات بنية بروتين PDB
وقت الإصدار:تم جمعها منذ عام 1971
وكالة النشر:قاعدة بيانات الويب
الكمية المتضمنة:أكثر من 140,000 بنية بروتينية/حمض نووي
تنسيق البيانات:ملف csv
حجم البيانات:27 ميجابايت (146 ميجابايت بعد فك الضغط)
عنوان التنزيل:https://orion.hyper.ai/datasets/13906
نفس مجموعة البيانات الموجودة في DeepMind، أنت تستحقها أيضًا~
كيفية الاستخدام؟
شريكنا OpenBayes هو خدمة سحابية توفر قوة الحوسبة السحابية للتعلم الآلي. إنهم يمتلكون مجموعة حوسبة فائقة واسعة النطاق، كما تم تصميم بنية مجموعة وحدة معالجة الرسوميات خصيصًا للحوسبة المصفوفية. إنه يوفر حاويات طاقة الحوسبة لتطبيقات الذكاء الاصطناعي، ومن السهل جدًا البدء في استخدامه ويمكن استخدامه فورًا.
حاليًا، تدعم منتجات حاويات الطاقة الحاسوبية الخاصة بـ OpenBayes بالفعل TensorFlow وPyTorch وMXNet وبيئات وحدة المعالجة المركزية ووحدة معالجة الرسومات الأخرى، إصدارات وأنواع مختلفة من أطر التعلم الآلي القياسية والتبعيات المشتركة المتنوعة.

تدعم حاوية الحوسبة OpenBayes حاليًا المكتبات القياسيةوتوفير وحدة المعالجة المركزية، وNVIDIA T4، وNVIDIA Tesla V100 وموارد الحوسبة الأخرىسواء كان الأمر يتعلق بالتدريب المركزي للبيانات الضخمة أو تشغيل نموذج مقيم منخفض الطاقة، فإنه يمكنه تلبية احتياجات المستخدم بسهولة.

من وحدة المعالجة المركزية إلى T4 إلى V100، مجموعة واسعة من تكوينات حاويات الحوسبة دعم OpenBayesتحميل البرنامج النصي ومحرر JupyterLabالبرمجة عبر الإنترنت ومن ثم التدريب على النماذج.

عملية تنفيذ واضحة وموجزةالبرنامج التعليمي الكامل: https://openbayes.com/docs/quickstart/
سجل كمستخدم جديد للاستمتاع بقوة الحوسبة GPU
قم بزيارة openbayes.com, انقر على الموقع الرسمي للتسجيل فورًا، وستكون هناك هدايا أسبوعية خلال فترة الاختبار الداخلي، لذلك لا يتعين عليك التنافس مع زملائك في الفصل والزملاء على قوة الحوسبة~

وصف الحدث قم بزيارة openbayes.com قم بالتسجيل كمستخدم جديد باستخدام رمز الدعوة [HyperAI]يمكنك الاستمتاع
حصة وحدة المعالجة المركزية المجانية:300 دقيقة/أسبوع
حصة vGPU المجانية:180 دقيقة/أسبوع
الاستحواذ على مجموعة البيانات الكاملة لـ PDB:
https://www.rcsb.org/#Category-download
يمكن عرض الملفات الموجودة في مجموعة بيانات PDB مباشرةً باستخدام محرر نصوص، ولكن من الأفضل استخدام أداة التصور. برنامج المشاهدة الموصى به رسميًا هو Swiss PDB Viewer:
https://spdbv.vital-it.ch/disclaim.html#
مراجع أخرى:
https://www.novopro.cn/articles/201912021193.html
-- زيادة--