HyperAI

التنبؤ بمعلمات حركية الإنزيم، وتحديد الاختناقات... شارك لوه شياوتشو من معهد شنتشن للتكنولوجيا المتقدمة، التابع للأكاديمية الصينية للعلوم، في التطبيق المبتكر للذكاء الاصطناعي في مجال الإنزيمات

特色图像

يعتبر البروتين، باعتباره حجر الأساس للحياة، دورًا رئيسيًا في أنشطة الحياة. وتعتبر دراسة تركيبها ووظيفتها ذات أهمية كبيرة لتطوير الأدوية المبتكرة، والبيولوجيا الاصطناعية، وإنتاج الإنزيمات وغيرها من المجالات. ومع ذلك، يواجه تصميم البروتين التقليدي العديد من التحديات. إن بنية البروتين معقدة ومساحة التسلسل ضخمة. إن طريقة التصميم التي تعتمد على الخبرة المتخصصة والفحص عالي الإنتاجية ليست فقط مستهلكة للوقت وتتطلب جهدًا مكثفًا، بل إنها أيضًا صعبة ضمان معدل النجاح.

اليوم، أصبح الذكاء الاصطناعي للعلوم بمثابة أفق جديد في تطوير الذكاء الاصطناعي العالمي، والذي يغير بشكل عميق نموذج البحث العلمي ويحدث تغييرات هائلة في مجال تصميم البروتين. وخاصة بعد ظهور نتائج مبتكرة مثل AlphaFold، أصبحت الأبحاث ذات الصلة تدريجيًا تحت أنظار الجمهور وتلقت المزيد من الاهتمام. وفي الوقت نفسه، عملت أيضًا على تشجيع المزيد من الفرق المتميزة في الداخل والخارج لتكريس نفسها لهذا الغرض ومعالجة الصعوبات من جوانب مختلفة مثل التكنولوجيا والتطبيق.

البروفيسور لوه شياوتشو، الباحث في معهد شنتشن للتكنولوجيا المتقدمة التابع للأكاديمية الصينية للعلوم، هو واحد منهم. ركز في السابق على علم الأحياء الاصطناعي. وبعد عودته إلى الصين في عام 2019، بدأ يكرس نفسه لأبحاث بروتين الذكاء الاصطناعي. في مؤتمر "المستقبل هنا" لتصميم البروتين بالذكاء الاصطناعي الذي استضافته جامعة شنغهاي جياو تونغ في الصين مؤخرًا، شارك البروفيسور لوه شياوتشو آراءه حول موضوع "هندسة الإنزيمات المدفوعة بالذكاء الاصطناعي". استكشاف التطبيقات المحتملة للتعلم المتعدد الوسائط والذكاء الاصطناعي التوليدي في تصميم الإنزيمات،يتم شرح التطبيقات والممارسات المبتكرة للذكاء الاصطناعي في مجال هندسة الإنزيمات من وجهات نظر متعددة مثل إطار عمل UniKP وآلة ProEnsemble.

البروفيسور لوه شياوتشو من معهد شنتشن للتكنولوجيا المتقدمة، الأكاديمية الصينية للعلوم

لقد قامت HyperAI بتنظيم وتلخيص المشاركة المتعمقة دون انتهاك النية الأصلية. وفيما يلي نص لأهم ما جاء في الخطاب:

بناء منصة آلية، الذكاء الاصطناعي يحل مشاكل البروتين

تُعد المنتجات الطبيعية كنزًا من المواد الطبية، وتتميز بمصادرها الواسعة وبنيتها الغنية وأنشطتها المتنوعة. ومع ذلك، فإن الطريقة التقليدية لاستخراج المنتجات الطبيعية من الموارد الطبيعية غير فعالة، كما أن التركيب الكيميائي النقي ليس له عائدات منخفضة فحسب، بل يتطلب أيضًا استخدام كمية كبيرة من الكواشف السامة والخطرة. على سبيل المثال، تم استخراج مادة الأرتيميسينين في الأصل من نبات الشيح الحولي، ولكنها واجهت العديد من المشاكل أثناء عملية التخليق الكيميائي. وفي وقت لاحق، تم تحقيق التعبير عن الأرتيميسينين في الخميرة Saccharomyces cerevisiae من خلال تنظيم جينات متعددة. لقد سمح لنا هذا الاختراق برؤية إمكانات التخليق الحيوي، لذلك بدأت في التركيز على البحث في المجال البيولوجي. علاوة على ذلك، في مجال تعديل الإنزيمات، فإن نقص البيانات من شأنه أن يحد بشكل خطير من تقدم الأبحاث. تجعلنا هذه المشكلة ندرك أهمية البيانات، لذا فإنني ملتزم ببناء منصات الأتمتة والبيانات لوضع الأساس لأبحاث الذكاء الاصطناعي اللاحقة.

وبما أن البروتينات هي الجزيئات الأساسية للحياة، فإن الأحماض النووية، والدهون الجزيئية الصغيرة، والكربوهيدرات، والأيضات، والأيونات، والماء، وغيرها من المواد يتم إنتاجها جميعها من البروتينات. وبناء على هذه الخاصية، بعد عودتي إلى الصين في عام 2019، ركزت أبحاثي على مجال البروتين وطرحت ثلاثة أسئلة علمية: أولاً، هل من الممكن التنبؤ بنشاط ووظيفة البروتين مباشرة من تسلسله؟ السؤال الثاني هو هل من الممكن توليد أو تطوير البروتينات التي يحتاجها الناس عند الطلب؟ ثالثا، هل من الممكن تحسين الإنزيمات أو السلالات بناء على استراتيجية عالمية موحدة؟

إطار عمل UniKP يتنبأ بخصائص الإنزيم بشكل أفضل

يذكر الكتاب المدرسي: إن التسلسل الأساسي للبروتين يحدد بنيته ووظيفته الثانوية، ويجب أن يحتوي التسلسل الأساسي على معلومات وظيفية. لذلك، فإن كيفية استخراج التسلسل أمر في غاية الأهمية. وباستخدام AlphaFold، بدأ فريقنا في استكشاف طرق للتنبؤ بوظيفة البروتين من التسلسل. في دراستنا، قدمنا بنية المحول لدمج طرق التمثيل التقليدية مع ميزات التعلم الآلي لبناء نموذج متكامل.لقد حقق إطار عمل التنبؤ بوظائف الببتيد والبروتين المستند إلى ميزات الاندماج والنماذج المتكاملة أداء SOTA في 8 مهام تنبؤ ذات صلة، مما أدى إلى التنبؤ بدقة بوظائف الببتيد والبروتين.ويعمل على تسريع عملية فحص المواد الفعالة المضادة للعدوى مثل الببتيدات المضادة للميكروبات ويقلل من تكاليف التجارب.

سير عمل إطار عمل التنبؤ بوظيفة البروتين

وبعد ذلك، استخدم الفريق إطار عمل UniKP لمحاولة التنبؤ بخصائص الإنزيمات استنادًا إلى أداة التنبؤ بالمعلمات الأنزيمية المضمنة في Transformer. استخدم ProtT5 ونموذج SMILE Transformer التقليدي لتحويل التسلسل إلى متجه ودمجه مع نموذج التعلم الآلي البسيط لتحقيق نتائج SOTA.

قام فريق البحث باختيار أربع مجموعات بيانات تمثيلية للتحقق من أداء وقيمة UniKP.

أولاً، مجموعة بيانات DLkcat،قام الباحثون بفحص 16,838 عينة، بما في ذلك 7,822 تسلسل بروتيني فريد و2,672 ركيزة فريدة من 851 كائن حي. يتم تقسيم مجموعة البيانات إلى مجموعة تدريب ومجموعة اختبار بنسبة 9:1.

فيما يلي مجموعات بيانات الرقم الهيدروجيني ودرجة الحرارة،تحتوي مجموعة بيانات الرقم الهيدروجيني على 636 عينة، تتكون من 261 تسلسل إنزيم فريد و331 ركيزة فريدة؛ تحتوي مجموعة بيانات درجة الحرارة على 572 عينة، تتكون من 243 تسلسل إنزيم فريد و302 ركيزة فريدة. يتم تقسيم مجموعة البيانات إلى مجموعة تدريب ومجموعة اختبار بنسبة 8:2.

المجموعة الثالثة هي مجموعة بيانات ثابت ميكايليس (Km)،يتكون من 11722 عينة، بما في ذلك تسلسلات الإنزيمات وبصمات الجزيئات الركيزة وقيم Km المقابلة. يتم تقسيم مجموعة البيانات إلى مجموعة تدريب ومجموعة اختبار بنسبة 8:2.

المجموعة الرابعة هي مجموعة بيانات kcat/Km،يحتوي على 910 عينة مكونة من تسلسلات إنزيمية وهياكل ركيزة وقيم kcat/Km المقابلة لها.

تم التحقق من أن UniKP أفضل بشكل ملحوظ من النماذج الموجودة في التنبؤ بـ kcat ويحقق التنبؤ بـ kcat/Km لأول مرة.إذا أخذنا kcat كمثال، ففي أكبر مجموعة بيانات متاحة للعامة، يكون معامل التحديد أعلى بنحو 20 نقطة مئوية من نتيجة SOTA الحالية. وفي الوقت نفسه، يعمل أيضًا بشكل أفضل بكثير في مهام متعددة مثل تقسيمات مجموعات البيانات المختلفة، وتقسيمات الفواصل الزمنية المختلفة، وتقسيمات فئات الإنزيم المختلفة.

أداء UniKP في التنبؤ بـ kcat

وباستخدام هذه البنية، وجدنا إنزيم TAL من النوع البري ذو أعلى نشاط إنزيمي حتى الآن من بين 1000 تسلسل Blast، وحصلنا على طفرات ذات نشاط إنزيمي أعلى من خلال التنبؤ بالطفرات في موقع واحد، مما أدى إلى تسريع عملية هندسة الإنزيم بشكل كبير.

بالإضافة إلى ذلك، واستهدافًا للاستقرار الحراري للبروتينات، اقترحنا نموذجًا للتنبؤ بالبروتين المحب للحرارة يعتمد على التسلسل Thermal Finer، والذي حقق أداء SOTA على ثلاث مجموعات بيانات تصنيفية وللمرة الأولى حقق التنبؤ بدرجة الحرارة الحفزية المثلى المقابلة (الانحدار) بناءً على تسلسل البروتين. وبعبارة أخرى، نجحنا للمرة الأولى في تحقيق التنبؤ المباشر بدرجة الحرارة المثالية من تسلسل البروتين، مما يوفر دعماً قوياً لاستخراج الإنزيمات والتطور.

الضبط الدقيق لـ ProGPT-2 لتوليد أو تطوير البروتينات حسب الطلب

يوجد حاليًا نوعان رئيسيان من نماذج إنتاج البروتين، وخاصة إنتاج الإنزيمات:

* الشبكات العصبية التوليدية التنافسية (GAN): ProteinGAN

* نماذج اللغة الكبيرة المولدة المدربة مسبقًا (LLM): ProtGPT2، ProGen

لكن،تواجه جميع أدوات توليد البروتين هذه مشكلة توليد تسلسلات مماثلة، وهي غير قادرة على تلبية احتياجات توليد الإنزيمات ذات الوظائف والأنشطة الجديدة.هناك أيضًا بعض الجوانب غير المعقولة في التحليل النظري: أولاً، قيم البكسل في الصورة مستمرة، وهو ما يناسب أكثر تحسين التدرج؛ ثانيًا، النص (تسلسل الأحماض الأمينية) غير متصل، وتحسين التدرج ليس له معنى لتحديث التضمينات، وهو غير فعال للغاية.

بالنسبة لمثل هذه المشاكل، نقوم بتحليل عميق لأوجه القصور في النماذج الحالية ونقترح إطار عمل جديد للتحسين.

قام فريقنا بضبط ProGPT-2 واستخدم شبكة عصبية CNN كمميز لتصفية التسلسلات المولدة وإعطائها الأولوية. ومن خلال التجارب وجد أنيتطلب الضبط الدقيق للتسلسل 2000 فقط أو حتى أقل، والتسلسل الناتج بدون كلمات تلميحية يكون أقرب إلى الإنزيم الطبيعي. وفي الوقت نفسه، فإن تقليل البيانات المكررة يمكن أن يؤدي إلى تحسين حداثة التسلسلات المولدة.

لا يتطلب تسلسل المطالبة
إن التكرار في تسلسلات الضبط الدقيق يؤثر على حداثة التسلسلات المولدة

نريد إنزيمات جديدة ذات هياكل ووظائف جديدة، حتى لا نحتاج إلى تسلسلات زائدة عن الحاجة. من خلال الببتيدات المضادة للميكروبات التنبؤية، وجدنا أن النموذج يعمل بشكل جيد بشكل أساسي، ثم أجرينا تحليل MDH ووجدنا أن:المواقع الرئيسية محفوظة بشكل كبير؛ درجات التنبؤ لأولئك الذين لديهم مجالات التوقيع أعلى؛ ونتائج الالتحام الجزيئي هي في الأساس نفس نتائج MDH في الطبيعة.كما هو موضح في الشكل التالي:

ثم قمنا بالتحقق ما إذا كانت الإنزيمات المختلفة التي تم إنتاجها بعد النموذج وظيفية. استنادًا إلى البيانات الأصلية لـ ProteinGAN، يمكن للإنزيمات التي تشبه 80% أن تصل إلى تشابه أقل من 40% بعد نموذج MDHs ذي الأولوية. بالمقارنة مع الإنزيمات العشرة التي اخترناها عشوائيًا من الطبيعة، فهي متشابهة بشكل أساسي من حيث عدم الذوبان وعدم التعبير والذوبان، ولكنها لا تزال تتمتع بنشاط إنزيمي جيد جدًا. بعبارة أخرى،إن الإنزيمات التي ينتجها فريقنا باستخدام هذا النموذج لها تشابه منخفض مع الإنزيمات الطبيعية، ومعظمها لها نشاط إنزيمي.

ProEnsemble تحديد الاختناقات الأيضية وتحسين إنتاج الإنزيمات

في عملية التخليق الحيوي، هناك سلسلة من الاختناقات الأيضية مثل انخفاض الكفاءة التحفيزية للعديد من الإنزيمات في المسار الأيضي والتأثيرات التبادلية بين الإنزيمات تجعل عملية التحسين معقدة وغير مؤكدة. غالبًا ما يؤثر الإفراط في التعبير عن إنزيمات المسار على نمو الخلايا والتعبير عن المنتج، وقد تسبب بعض الإنزيمات تأثيرات سلبية. ولتحقيق هذه الغاية، سألت: هل هناك استراتيجية عالمية موحدة لتحسين الإنزيمات أو السلالات؟

دعونا أولاً نتحقق ما إذا كان الإفراط في التعبير سيئًا حقًا؟قام الفريق بخفض مستويات التعبير لبعض الإنزيمات بشكل مصطنع لإنشاء اختناقات أيضية اصطناعية، وبالتالي الحصول على مساحة تطورية يمكن التحكم فيها.

لذلك، تم اقتراح حل لتصميم عنق الزجاجة في المسار واستراتيجية الإزالة، مع أخذ النارينجين كمثال:

* في المرحلة الأولى، سوف نستخدم تقنية منصة المرافق الآلية واسعة النطاق للسماح للجينات المرتبطة بتخليق النارينجين بالتعبير عن مستوى منخفض (خلفية عدد النسخ المنخفضة)، وبالتالي بناء عنق زجاجة أيضي اصطناعي لتخليق النارينجين.

* في المرحلة الثانية، تم فحص الطفرات المرشحة 4CL-11C1 وCHS-9H9 بحثًا عن إنتاجها من النارينجين بشكل مماثل لإنتاج الطفرات الأصلية، وبالتالي القضاء على عنق الزجاجة في مسار النارينجين.

* في المرحلة الثالثة، من خلال هندسة المحفز بوساطة الذكاء الاصطناعي، يتم إعادة وضع الطفرات الخاصة بالجينات الفردية في المسار الأصلي ويتم موازنة التدفق الأيضي.

وأظهرت نتائج الدراسة أنإن استراتيجيات إنشاء وإزالة الاختناقات الاصطناعية تمكن من التطور الفعال للمسارات الأيضية ضمن حدود المسارات الواضحة.ويؤكد أيضًا أن التأثيرات الإبستاتية قد تحد من حدود تطور المسار.

وعلى هذا الأساس، قمنا بتصميم عملية آلية تتضمن التعليمات والاستنساخ واختبارات الفحص البكتيري.وأظهرت النتائج عدم وجود فرق معنوي بينه وبين التشغيل اليدوي من حيث النمو والغربلة واستخلاص المنتج.ومع ذلك، فإن أساليب تطور المسار الأيضي بمساعدة الأتمتةيتم تقصير وقت التطور الموازي متعدد الإنزيمات بشكل كبير، ويمكن إكمال جولة واحدة من التطور الموازي في غضون أسبوعين.

استنادًا إلى كمية كبيرة من البيانات المتراكمة، قام الفريق بتطوير نموذج ProEnsemble المتكامل للتعلم الآلي لتحسين الزيادات الأيضية. وأظهرت التجارب أن النموذج المتكامل القائم على التعلم الآلي حقق التوازن في المسارات الأيضية وزاد إنتاج النارينجين بمقدار 5.16 مرة مقارنة بالنموذج غير المحسن، ليصل إلى 1.21 جرام/لتر في صفيحة ذات 96 بئرًا و3.65 جرام/لتر في جهاز التخمير، ليصل إلى أعلى مستوى تم الإبلاغ عنه. وببساطة، من خلال الإفراط في التعبير عن الجينات الاصطناعية الرئيسية، كان إنتاج الهياكل المركبة المعدلة المختلفة أعلى من المستويات المذكورة في الأدبيات (بمساعدة استراتيجيات الهندسة الأيضية).

تبني استراتيجية التعلم ProEnsemble نظامًا مغلقًا لتحديد وتحسين الاختناق الأيضي، وتطور بنجاح هيكل نارينجين Escherichia coli عالي الإنتاجية، وهو أعلى بعدة مرات من المستوى الحالي في الصناعة ويوفر حلاً عالميًا لتوازن الشبكات الأيضية المعقدة.

بناء منصة أتمتة واسعة النطاق لتعزيز التعاون بين الصناعة والجامعة والبحث العلمي

وأخيرا، أود أن أعرض لكم التنفيذ الصناعي لهذه الإنجازات. لقد قمنا ببناء منصة آلية بالكامل واسعة النطاق - المنشأة العلمية والتكنولوجية الكبرى لأبحاث البيولوجيا الاصطناعية في شنتشن، الصين، والتي تتضمن منصة آلية واسعة النطاق تغطي منصات متعددة مثل التعلم التصميمي والاختبار الاصطناعي واختبار المستخدم. تتمتع المنصة بوظائف قوية ويمكنها إجراء معالجة بيانات موحدة وتصميم تجريبي للتعلم الآلي في السحابة. يمكن للروبوتات أن تساعد في إكمال العمليات التجريبية. تتميز سرعة تحضير الطيف والكشف بالسرعة، حيث يمكن إنشاء عينة واحدة في 10 ثوانٍ فقط، مما يحقق الكشف عالي الإنتاجية.

بالإضافة إلى ذلك، توفر المنصة أيضًا تصميمًا برمجيًا مساعدًا آليًا، مما يسمح للمستخدمين باختيار المكونات المطلوبة مباشرة من مكتبة المكونات وإنشاء تعليمات تجريبية. لقد تعاوننا الآن مع العديد من الصناعات والأوساط الأكاديمية. نحن المنصة الأولى في الصناعة التي تنفذ العملية الكاملة لأتمتة Streptomyces. نرحب بالجميع للتعاون معنا.

نبذة عن البروفيسور لوه شياوزو

البروفيسور لوه شياوتشو هو باحث ومشرف دكتوراه ومساعد مدير معهد البيولوجيا الاصطناعية في معاهد شنتشن للتكنولوجيا المتقدمة، التابعة للأكاديمية الصينية للعلوم. وهو خبير مختار في مشروع المواهب الوطنية الكبرى - مشروع الشباب، ومدير التكنولوجيا في مركز الابتكار الوطني لصناعة التصنيع الحيوي، ونائب كبير مهندسي العمليات في منشأة شنتشن الكبرى للعلوم والتكنولوجيا للبيولوجيا الاصطناعية، الصين.

حصل على درجة الدكتوراه. حصل على درجة الدكتوراه في الكيمياء من معهد سكريبس للأبحاث في عام 2016 (المشرف: الأكاديمي بيتر جي شولتز)، ثم أكمل أبحاث ما بعد الدكتوراه في جامعة كاليفورنيا، بيركلي (المشرف المشارك: الأكاديمي جاي دي كيسلينج). في عام 2019، انضم إلى معاهد شنتشن للتكنولوجيا المتقدمة، التابعة للأكاديمية الصينية للعلوم. تم اختياره في برنامج المواهب الوطنية للشباب، والعلماء الشباب المتميزين في مقاطعة قوانغدونغ، والعلماء الشباب المتميزين في مدينة شنتشن.

تركز أبحاثه على العمليات الكيميائية الحيوية في الكائنات الحية في مجال علم الأحياء الاصطناعي، بما في ذلك التطور الموجه للإنزيمات، وهندسة البروتين، والفحص عالي الإنتاجية، والتخليق الحيوي الكامل للمركبات الطبيعية وغير الطبيعية. بصفته مؤلفًا مراسلًا، نشر 20 ورقة بحثية في Nature Metabolism، وAdvanced Science، وNature Synthesis، وNature Communications، وAngew. كيمياء دولي محرر، الخ، ومجموع أكثر من 50 ورقة علمية، وتقدمت بطلبات لأكثر من 30 براءة اختراع، وأذنت بـ 6.