اقترح فريق لوه شياوزو من الأكاديمية الصينية للعلوم إطار عمل UniKP، وهو نموذج كبير + التعلم الآلي للتنبؤ بمعلمات حركية الإنزيم بدقة عالية

المؤلف: لي باوزو
المحرر: سانيانغ
اقترح فريق لوه شياوتشو من معهد شنتشن للتكنولوجيا المتقدمة، التابع للأكاديمية الصينية للعلوم، إطار عمل للتنبؤ بمعلمات حركية الإنزيم (UniKP) لتحقيق التنبؤ بمجموعة متنوعة من معلمات حركية الإنزيم المختلفة.
كما نعلم جميعًا، يتم تحقيق عملية التمثيل الغذائي في الكائنات الحية من خلال مجموعة متنوعة من التفاعلات الكيميائية. إذا تم إجراء هذه التفاعلات في المختبر، فإنها تتطلب عادة ظروفًا قاسية مثل درجة الحرارة العالية، والضغط العالي، والحمض القوي، والقلويات القوية.
ومع ذلك، في الكائنات الحية، يمكن للتفاعلات الأيضية أن تتم بكفاءة في ظل ظروف معتدلة للغاية، ويرجع ذلك أساسًا إلى المحفزات العضوية المهمة - الإنزيمات.
باعتبارها نقطة معرفة عالية الدرجات في علم الأحياء في المدرسة الثانوية، ربما تكون خصائص الإنزيمات قد طبعت بعمق في ذاكرة الجميع - كفاءة تحفيزية عالية، وخصوصية قوية، وظروف عمل معتدلة، وما إلى ذلك. والأهم من ذلك، ترتبط الإنزيمات ارتباطًا وثيقًا بالعديد من الأمراض البشرية ويمكن استخدامها أيضًا للتشخيص والعلاج. لقد أجرى الناس أبحاثًا متعمقة حول بنية ووظيفة جزيئات الإنزيم مع الاستمرار في استكشاف العوامل التي تؤثر على التفاعلات الأنزيمية.
العلم الذي يدرس معدل التفاعلات الإنزيمية والآلية التي تؤثر بها العوامل المختلفة على معدل التفاعلات الإنزيمية يسمى "حركية التفاعل الإنزيمي".في البحث، يتم قياس الكفاءة التحفيزية للإنزيم في تفاعل محدد عادةً من خلال المعلمات الحركية للإنزيم.
تتضمن المعلمات الحركية للتفاعلات المحفزة بالإنزيم رقم دوران الإنزيم kقطة ثابت ميكايليس Kم والكفاءة التحفيزية kقطة / كم في الوقت الحالي، تعتمد قياسات المعلمات بشكل أساسي على التجارب الرطبة، ولكن هذه العملية تستغرق وقتًا طويلاً ومكلفة، مما يؤدي إلى قاعدة بيانات صغيرة نسبيًا لمعلمات حركية الإنزيم المقاسة تجريبيًا. إن ندرة البيانات سوف تحد من تطوير مجالات علم الأحياء النظمي والهندسة الأيضية.
وفي ضوء ذلك،اقترح فريق لوه شياوتشو من معهد التوليف التابع لمعاهد شنتشن للتكنولوجيا المتقدمة والأكاديمية الصينية للعلوم إطار عمل للتنبؤ بمعلمات الحركة الإنزيمية (UniKP) يعتمد على نموذج لغوي كبير مدرب مسبقًا ونموذج التعلم الآلي.
يمكن لهذا الإطار التنبؤ بمجموعة متنوعة من معلمات حركية الإنزيم باستخدام تسلسل الأحماض الأمينية فقط لإنزيم معين والمعلومات البنيوية لركيزته. بالإضافة إلى ذلك، أخذ فريق البحث العوامل البيئية في الاعتبار واقترح إطار عمل مزدوج الطبقة EF-UniKP يعتمد على UniKP، والذي حقق تنبؤًا أكثر دقة لمعلمات حركية الإنزيم.

رابط الورقة:
https://www.nature.com/articles/s41467-023-44113-1
رابط GitHub:
https://github.com/Luo-SynBioLab/UniKP
اتبع الحساب الرسمي ورد "UniKP" لتحميل الورقة كاملة
مجموعات البيانات التمثيلية تثبت صحة قيمة النموذج
قام فريق البحث باختيار أربع مجموعات بيانات تمثيلية للتحقق من أداء وقيمة UniKP.
أولاً، مجموعة بيانات DLKcat،قام الباحثون بفحص 16,838 عينة، بما في ذلك 7,822 تسلسل بروتيني فريد و2,672 ركيزة فريدة من 851 كائن حي. يتم تقسيم مجموعة البيانات إلى مجموعة تدريب ومجموعة اختبار بنسبة 9:1.
فيما يلي مجموعات بيانات الرقم الهيدروجيني ودرجة الحرارة،تحتوي مجموعة بيانات الرقم الهيدروجيني على 636 عينة، تتكون من 261 تسلسل إنزيم فريد و331 ركيزة فريدة؛ تحتوي مجموعة بيانات درجة الحرارة على 572 عينة، تتكون من 243 تسلسل إنزيم فريد و302 ركيزة فريدة. يتم تقسيم مجموعة البيانات إلى مجموعة تدريب ومجموعة اختبار بنسبة 8:2.
والثالث هو ثابت ميكايليس (Kم) مجموعة البيانات،يتكون من 11722 عينة، بما في ذلك تسلسلات الإنزيمات وبصمات الجزيئات الركيزة وK المقابلةم قيمة. يتم تقسيم مجموعة البيانات إلى مجموعة تدريب ومجموعة اختبار بنسبة 8:2.
الرابع هو كقطة/كم مجموعة البيانات،يحتوي على 910 تسلسلات إنزيمية وهياكل الركيزة وk المقابلة لهاقطة/كم عينة من القيم.
مكونان رئيسيان: وحدة التمثيل + وحدة التعلم الآلي
يمكن لـ UniKP الذي اقترحه فريق البحث تحسين التنبؤ بـ k استنادًا إلى تسلسلات الإنزيم وبنية الركيزة المعطاة.قطة ، كم و كقطة / كم دقة. يتكون إطار عمل UniKP من عنصرين رئيسيين - وحدة التمثيل ووحدة التعلم الآلي.
دور وحدة التمثيل هو تحويل المعلومات المعقدة للأنزيمات والركيزة إلى تمثيلات متجهة يمكن فهمها ومعالجتها بواسطة نموذج التعلم الآلي.يتيح هذا لوحدات التعلم الآلي اللاحقة إجراء التنبؤات والتحليلات.

ومن بينها، تستخدم وحدة تمثيل تسلسل الإنزيم نموذج اللغة المدرب مسبقًا ProtT5-XL-UniRef50 لتشفير معلومات الإنزيم. يتم تحويل كل حمض أميني إلى متجه ذو 1024 بعدًا من خلال النموذج ومعالجته عن طريق المتوسط من خلال التجميع المتوسط، وأخيرًا يتم إنشاء متجه ذو 1024 بعدًا لتمثيل معلومات تسلسل الإنزيم بأكمله (كما هو موضح في الشكل أعلاه).

تستخدم وحدة تمثيل بنية الركيزة نموذج اللغة المدرب مسبقًا SMILES Transformer لتشفير معلومات الركيزة. يتم تحويل بنية الركيزة إلى تنسيق SMILES، ثم يتم إنشاء متجه مكون من 1024 بُعدًا من خلال محول SMILES المدرب مسبقًا. يتم حساب متوسط الناتج الأول من الطبقة الأخيرة والطبقة قبل الأخيرة وتجميعهما إلى الحد الأقصى لإنشاء متجه مكون من 1024 بُعدًا لتمثيل المعلومات البنيوية للركيزة (كما هو موضح في الشكل أعلاه).

بالنسبة لوحدة التعلم الآلي،قام فريق البحث بمقارنة 16 نموذجًا مختلفًا للتعلم الآلي ونموذجين تمثيليين للتعلم العميق - الشبكات العصبية التلافيفية والشبكات العصبية المتكررة.
وتظهر النتائج أن النماذج المتكاملة تظهر أداء أفضل، وخاصة الغابات العشوائية والأشجار الإضافية، والتي كانت أفضل بكثير من النماذج الأخرى، ومن بينها الأشجار الإضافية التي حققت أفضل أداء (R²=0.65). كما هو موضح في الشكل أعلاه، يأخذ نموذج التعلم الآلي متجه التمثيل المتسلسل كمدخل ويولد k المتوقعقطة ، كم أو كقطة / كم قيمة.

بالإضافة إلى ذلك، أخذ الباحثون العوامل البيئية في الاعتبار، وقاموا بإنشاء إطار تنبؤ محسن، وقاموا بالتحقق من صحته على مجموعتين من البيانات تغطيان معلومات الرقم الهيدروجيني ودرجة الحرارة (كما هو موضح في الشكل أعلاه).

أخيرًا، يقوم UniKP بضبط توزيع وزن العينة من خلال طرق إعادة الترجيح المختلفة لإنتاج نتائج تنبؤ محسنة لمهام التنبؤ ذات القيمة العالية (كما هو موضح في الشكل أعلاه).
إطار مزدوج الطبقة—EF-UniKP
باعتباره إطار عمل مكون من طبقتين، يتكون EF-UniKP من طبقة أساسية وطبقة ميتا، كما هو موضح في الشكل التالي:

تحتوي الطبقة الأساسية على نموذجين مستقلين - UniKP وUniKP المنقح. يأخذ UniKP متجه تمثيل الاتصال بين البروتين والركيزة كمدخل، بينما يستخدم Revised UniKP متجه تمثيل الاتصال بين البروتين والركيزة، جنبًا إلى جنب مع قيمة الرقم الهيدروجيني أو درجة الحرارة كمدخل.
تتكون الطبقة الفوقية من نموذج انحدار خطي باستخدام k المتوقع من UniKP وUniKP المنقحقطة القيمة للتنبؤ بالقيمة k النهائيةقطة قيمة.
قيمة R² أعلى من 20%، EF-UniKP تفوز
فريق البحث في كقطة تم التحقق من صحة إطار عمل UniKP في مهمة التنبؤ باستخدام مجموعة بيانات DLKcat، التي تحتوي على 16838 عينة. في 5 جولات من التحقق من صحة مجموعة الاختبار المقسمة عشوائيًا، حقق UniKP قيمة R² تبلغ 0.68، وهي أعلى من DLKcat بمقدار 20%. بالإضافة إلى ذلك، في الاختبار، كانت أعلى قيمة لـ DLKcat أقل بـ 16% من أدنى قيمة لـ UniKP، مما يثبت متانة UniKP بشكل أكبر.

ثم قام فريق البحث بإنشاء مجموعتين من البيانات تغطي معلومات الرقم الهيدروجيني ودرجة الحرارة لتقييم EF-UniKP، وقسمهما إلى مجموعات تدريب واختبار بنسبة 8:2 على التوالي.
على مجموعة الاختبار،أداء EF-UniKP أفضل من أداء UniKP وUniKP المنقح.في اختبار مجموعة بيانات الرقم الهيدروجيني، فإن R² لـ EF-UniKP أعلى بمقدار 20% و8% على التوالي. في اختبار مجموعة بيانات درجة الحرارة، كانت R² لـ EF-UniKP أعلى بمقدار 26% و2% على التوالي. في الاختبارات التي لم يكن فيها على الأقل أحد الإنزيم والركيزة في مجموعة التدريب، كانت قيم R² لـ EF-UniKP أعلى بمقدار 13% و10% من قيم UniKP وRevised UniKP على مجموعة بيانات الرقم الهيدروجيني، وأعلى بمقدار 16% و4% على مجموعة بيانات درجة الحرارة، على التوالي.

نموذج الفراشة: دمج البحث العلمي والصناعة
أُسِّسَ معهد شنتشن للتكنولوجيا المتقدمة التابع للأكاديمية الصينية للعلوم (المشار إليه فيما يلي باسم "معهد شنتشن المتقدم")، الذي يُمثِّل المجموعة البحثية للو شياوتشو، بالتعاون بين الأكاديمية الصينية للعلوم وحكومة مدينة شنتشن الشعبية وجامعة هونغ كونغ الصينية في فبراير/شباط 2006. ويتألف من ثمانية معاهد بحثية:
* معهد شنتشن للتكنولوجيا المتكاملة المتقدمة، الأكاديمية الصينية للعلوم، الجامعة الصينية في هونغ كونغ
* معهد الهندسة الطبية الحيوية والصحية
* معهد الحوسبة المتقدمة والهندسة الرقمية
* معهد الطب الحيوي والتكنولوجيا
* معهد الإدراك الدماغي وأمراض الدماغ
* معهد البيولوجيا التركيبية
* معهد علوم وهندسة المواد المتقدمة
* معهد أبحاث تكنولوجيا الحياد الكربوني (الإعدادي)
أكمل الدكتور لوه شياوتشو أبحاث ما بعد الدكتوراه في جامعة كاليفورنيا، بيركلي في عام 2019، وعاد إلى الصين وانضم رسميًا إلى معهد البيولوجيا الاصطناعية التابع لمعهد شنتشن للتكنولوجيا المتقدمة كباحث. وفي العام نفسه، تأسست شركة "Senruis Bio"، التي كان أحد الشركاء فيها، رسميًا في شنتشن، مع التركيز على البحث والتطوير في مجال تكنولوجيا البيولوجيا الاصطناعية وتطبيقاتها المبتكرة في مختلف المجالات. في مارس 2022، أكملت الشركة جولة تمويلية من الفئة "أ" بلغت قيمتها نحو 100 مليون يوان.
إن مسار التنمية للدكتور لوه شياوتشو المتمثل في تحقيق التوازن بين "البحث العلمي" و"الصناعة" يتماشى تمامًا مع مهمة معاهد شنتشن المتقدمة. وفقا للمقدمة،قام معهد شنتشن للتكنولوجيا المتقدمة باستكشاف "نموذج الفراشة 0-1-10-∞".وقد تم تطبيق هذا الأمر بشكل جيد أيضًا في شركة Senruis Biotech.
بعد اكتشاف أن المطاط السائل HVR والكانابينويد CBD يمكن أن يشتركا في نفس خلايا هيكل الملكية الفكرية المستقلة، استخدمت Senruis العديد من طرق المعالجة التي تم تطويرها في المرحلة المبكرة لتحويل خميرة البيرة، جنبًا إلى جنب مع مكتبة المكونات البيولوجية الاصطناعية الداخلية،تم زيادة إنتاج المطاط السائل HVR إلى مستويات قابلة للتطبيق تجاريا في غضون 6 أشهر.
ومن بينهم، تعاون الدكتور لوه شياوتشو مع معلمه الأكاديمي جاي دي كيسلينج، وهو أيضًا أحد مؤسسي شركة سينرويس، ونجح في فتح مسار التخليق البيولوجي للقنب في عام 2019، والذي أصبح الأساس لتسويقه تجاريًا.
قال لوه شياوتشو إن هناك عاملين رئيسيين لتحقيق التصنيع السريع لخطوط الأنابيب:أولا، التكامل العميق بين الأوساط الأكاديمية والصناعة.يعمل المجتمع الأكاديمي بشكل فعال على بناء مسارات اصطناعية 0-1 للمركبات التي تحتاجها الصناعة؛الثاني هو توحيد عمليات وأدوات الإنتاج.من خلال تغطية ثلاث مراحل من البحث الأكاديمي 0-1، والبحث والتطوير الهندسي 1-10، إلى التوسع الصناعي غير المحدود 10، سنقوم ببناء خط إنتاج للبيولوجيا الاصطناعية وتحسين كفاءة البحث والتطوير من 1-10.
مراجع:
https://www.siat.ac.cn/cyjl2016/202203/t20220330_6416153.html
https://mp.weixin.qq.com/s/QsAqhqIBwYhDfdtY1zJACw