HyperAI

معلمات النموذج تتجاوز انتشار RF بخمس مرات! أطلقت NVIDIA وشركات أخرى Proteina، وهو هيكل أساسي للبروتين مصمم من الصفر مع أداء SOTA

特色图像

منذ القرن الماضي، كرس العلماء أنفسهم لاستكشاف التنبؤ ببنية البروتين بناءً على تسلسل الأحماض الأمينية، مع رؤية استخدام الأحماض الأمينية لإنشاء بروتينات جديدة وبناء مخطط الحياة. ومع ذلك، فإن هذه المهمة العظيمة تقدمت ببطء على مدى فترة طويلة من الزمن. ولم يكن الأمر كذلك إلا في السنوات الأخيرة، مع التطور السريع لتكنولوجيا الذكاء الاصطناعي، حيث اكتسبت زخمًا قويًا ودخلت المسار السريع للتطور.

منذ عام 2016، كانت الثورة التكنولوجية التي بدأها Xu Jinbo، مؤسس ورئيس علماء مركز Molecular Heart، وآخرون، تعمل على تغيير هذا المجال بهدوء. كانوا رائدين في تقديم بنية الشبكة العميقة المتبقية ResNet في مجال التنبؤ بالبنية.تم تحقيق تحسن كبير في التنبؤ باتصال بقايا البروتين بنجاح.لقد أرسى هذا الاختراق أساسًا متينًا للتكامل العميق بين الذكاء الاصطناعي وتصميم البروتين. ومنذ ذلك الحين، اتبعت العديد من فرق البحث العلمي هذا النهج وعملت بجد في هذا المجال. وقد ظهر عدد كبير من الخوارزميات التي تجمع بين التطور المشترك والتعلم العميق. ومن بين هذه الإنجازات، سلسلة من الإنجازات الكبرى التي حققها ديفيد بيكر، الحائز على جائزة نوبل في الكيمياء لعام 2024، وAlphaFold التي أصبحت أكثر شهرة، مما دفع البحث في هذا المجال إلى آفاق جديدة.

ومع ذلك، بمراجعة الدراسات السابقة،غالبًا ما يتم تدريب نماذج إنشاء بنية البروتين غير المشروطة فقط على مجموعات بيانات صغيرة النطاق، حيث لا يتجاوز عدد الهياكل 500000.علاوة على ذلك، خلال عملية التركيب، تفتقر الشبكات العصبية لهذه النماذج إلى أساليب التحكم الفعالة، وهناك فجوة كبيرة في كل من الحجم والأداء مقارنة بالنماذج التوليدية في مجالات مثل اللغة الطبيعية أو الصور أو إنشاء الفيديو.

في مجال إنتاج اللغة الطبيعية والصور والفيديو، شهد الناس تغييرات هائلة واختراقات كبرى أحدثتها هياكل الشبكات العصبية القابلة للتطوير ومجموعات البيانات التدريبية واسعة النطاق والتحكم الدلالي الدقيق. وهذا ما دفع الباحثين إلى التفكير بعمق: هل يمكننا أن نتعلم من التجارب الناجحة في هذه المجالات ونجري توسعات وضوابط مماثلة على نماذج انتشار وتدفق بنية البروتين، بحيث نحقق نقلة نوعية في مجال تصميم البروتين؟

والأمر المفرح هو أن شركة NVIDIA تعاونت مؤخرًا مع Mila ومعهد أبحاث الذكاء الاصطناعي في كيبيك وجامعة مونتريال ومعهد ماساتشوستس للتكنولوجيا لتطوير نوع جديد من مولد العمود الفقري للبروتين المتدفق على نطاق واسع Proteina. يحتوي Proteina على خمسة أضعاف عدد معلمات نموذج RFdiffusion ويقوم بتوسيع بيانات التدريب إلى 21 مليون بنية بروتينية اصطناعية.نحن نحقق أداءً متطورًا في تصميم العمود الفقري للبروتين الجديد ونولد بروتينات متنوعة وقابلة للتصميم بطول غير مسبوق - ما يصل إلى 800 بقايا.

وقد تم اختيار نتائج البحث ذات الصلة، بعنوان "بروتينا: نماذج توليد بنية البروتين القائمة على التدفق التدريجي"، للمؤتمر الدولي لأبحاث علم الأعصاب 2025 الشفوي.


عنوان الورقة:

https://openreview.net/forum?id=TVQLu34bdw&nesting=2&sort=date-desc

أوصي بحدث مشاركة أكاديمي. أحدث دعوة للبث المباشر لمؤتمر AI4S ستكون في الساعة 12:00 ظهرًا يوم 7 مارس.هوانغ هونغ، أستاذ مشارك في جامعة هواتشونغ للعلوم والتكنولوجيا، وتشو دونغ تشان، باحث شاب في مركز الذكاء الاصطناعي للعلوم في مختبر الذكاء الاصطناعي في شنغهاي، وتشو بينج شين، باحث مساعد في معهد العلوم الطبيعية في جامعة شنغهاي جياو تونغ.تعريف بالإنجازات الشخصية ومشاركة تجربة البحث العلمي.

الذكاء الاصطناعي يُمكّن تصميم البروتين: من البنية إلى التسلسل، ومن التنبؤ إلى التصميم

في عملية البحث في علوم الحياة، احتل تصميم البروتين دائمًا مكانة بالغة الأهمية. لفترة طويلة، كان تعلم القواعد والأنماط من كميات هائلة من بيانات تسلسل البروتين بمثابة نقطة ضعف يواجهها الباحثون العلميون. ولحسن الحظ، وبفضل دعم تكنولوجيا الذكاء الاصطناعي، أخذ هذا المجال زمام المبادرة في التحول.

على سبيل المثال،أطلقت شركة DeepMind تطبيق AlphaFold3 الذي يعمل على تحسين نمذجة التفاعلات بين الحمض النووي DNA والحمض النووي الريبي RNA والجزيئات الصغيرة.إن القدرة على التنبؤ الدقيق ببنية المجمعات البروتينية توفر دعماً قوياً لفهم التفاعلات المعقدة للبروتينات داخل الخلايا. أطلقت شركة Meta مؤخرًا برنامج ESMFold، الذي يجمع بين نموذج اللغة والتنبؤ بالبنية.ويؤدي هذا إلى تحسين سرعة التنبؤ بشكل كبير، مما يسمح للباحثين بالحصول على معلومات حول بنية البروتين بكفاءة أكبر.يقوم أحدث برنامج BioEMU-1 من Microsoft بمحاكاة التغيرات الديناميكية في تكوين البروتين.لقد فتح هذا المجال جديدًا للاستكشاف المتعمق لآلية حركة البروتينات وتصميم الأدوية.

وبفضل هذه الأسس، بدأ الذكاء الاصطناعي يتغلغل تدريجيا في تصميم بنية البروتين.

يعتمد تصميم بنية البروتين بشكل أساسي على هياكل البروتين المعروفة، والتي يتم تعديلها وتحسينها من خلال طرق مختلفة للحصول على بروتينات ذات وظائف أو خصائص محددة. نظرًا لأن وظيفة البروتين يتم تحديدها بشكل أساسي من خلال تكوينه ثلاثي الأبعاد،أصبحت طريقة النمذجة المباشرة للتوزيع الهيكلي تدريجيًا الاتجاه السائد، ومن بينها الخوارزميات القائمة على نماذج الانتشار أو نماذج التدفق والتي تعد بارزة بشكل خاص.على سبيل المثال، يعد نموذج Chroma الذي طورته شركة Generate Bio أول تطبيق واسع النطاق لنمذجة الانتشار لتصميم البروتين الدقيق.قادرة على إنتاج "بروتينات غير موجودة على الإطلاق في الطبيعة".

أيضًا،يمكن لتقنية RFdiffusion التي اقترحها ديفيد بيكر أن تولد هياكل بروتينية ذات وظائف محددة عن طريق ضبط شبكة التنبؤ ببنية RoseTTAFold.ويوفر أساسًا هيكليًا دقيقًا لتصميم البروتينات الوظيفية. يقوم Genie2 الذي اقترحه باحثون من جامعة كولومبيا وجامعة روتجرز بتوسيع بيانات التدريب إلى AFDB.قادرة على توليد بروتينات معقدة ذات مواقع وظيفية مستقلة متعددة.

ومن المعروف أن بنية البروتينات وتسلسلها مترابطان، والبنية تحدد الوظيفة، والتسلسل هو أساس البنية. عندما يتم تغيير بنية البروتين بواسطة تقنية الذكاء الاصطناعي، فإن تسلسل البروتين سوف يتغير حتماً أيضاً. يعتمد تصميم تسلسل البروتين بشكل أساسي على بنية البروتين المعروفة، ومن خلال طرق الحساب والتنبؤ، لتصميم تسلسل الأحماض الأمينية الذي يتناسب مع البنية.

في الوقت الحاضر، ينقسم تصميم تسلسل بروتين الذكاء الاصطناعي بشكل أساسي إلى نوعين:أحدها هو أداة تصميم تسلسل البروتين العمود الفقري الثابت،على سبيل المثال، يتبنى برنامج ESM-IF الذي أطلقته جامعة ستانفورد نموذجًا يجمع بين التدريب المسبق والضبط الدقيق، ويدمج المعرفة البنيوية بذكاء في تصميم البروتين الوظيفي، مما يوفر دعمًا قويًا لتصميم البروتينات ذات الوظائف المحددة. يعتمد ProteinMPNN الذي اقترحه ديفيد بيكر على الشبكة العصبية البيانية ويمكنه توليد تسلسلات الأحماض الأمينية المتطابقة وفقًا لهيكل السلسلة الرئيسية، مما يوفر طريقة فعالة ودقيقة لتصميم تسلسل البروتين.

والأخرى هي أداة تصميم تسلسل البروتين الموجهة نحو الوظيفة.على سبيل المثال، أطلقت شركة Salesforce نموذج ProGen وهو نموذج توليد مشروط يمكنه تخصيص تسلسلات البروتين وفقًا لمتطلبات وظيفية محددة، مما يوفر حلاً مرنًا للغاية لتصميم البروتينات الوظيفية. نجح مشروع ZymCTRL، الذي أطلقته جامعة جيرونا في إسبانيا، في تحقيق تصميم موجه للوظيفة من خلال ضبط نموذج اللغة المدرب مسبقًا، مما يوفر دعمًا قويًا للتنظيم الدقيق لوظيفة البروتين. إن تقنية انتشار P450 التي اقترحها معهد تيانجين للتكنولوجيا الحيوية الصناعية التابع للأكاديمية الصينية للعلوم، تعمل على توليد متغيرات إنزيم P450 ذات وظائف تحفيزية محددة تعتمد على نموذج الانتشار، مما يجلب فرص تطوير جديدة لمجال هندسة الإنزيمات.

*انقر هنا لمشاهدة التقرير المفصل: تمت زيادة القدرة التحفيزية بمقدار 3.5 مرة! قام فريق الأكاديمية الصينية للعلوم بتطوير طريقة تصميم جديدة لإنزيم P450 استنادًا إلى نموذج الانتشار P450Diffusion

ومع ذلك، بالمقارنة مع الأنواع الثلاثة الأخرى من نماذج البروتين، فإن نطاق نماذج تصميم بنية البروتين الحالية صغير عمومًا. على وجه التحديد، يبلغ حجم مجموعة التدريب الخاصة بـ AlphaFold 3 ما يقرب من 100 مليون، ويستخدم BioEmu-1 أكثر من 200 مليون تسلسل بروتيني من قاعدة بيانات AFDB في مرحلة ما قبل التدريب، ويبلغ عدد معلمات ProGen ما يصل إلى 1.2 مليار. ومع ذلك، فإن RFdiffusion، وهو ممثل بارز في مجال تصميم بنية البروتين، يستخدم بيانات التدريب الخاصة به فقط من عشرات الآلاف من هياكل البروتين الحقيقية في مستودع بنك بيانات البروتين (PDB)، ويمكن أن يصل الطول الإجمالي للهيكل الذي يمكنه إنتاجه إلى 600 بقايا حمض أميني فقط. أكبر مجموعة بيانات لـ Genie2 تحتوي على حوالي 600000 بروتين هيكلي اصطناعي فقط.

وفي هذا السياق،تتطلع الصناعة بفارغ الصبر إلى ميلاد نموذج تصميم بنية البروتين مع حجم بيانات تدريب أكبر وطول إجمالي أطول للبنية وقابلية تحكم أقوى - Proteina.

نموذج بروتينا: اختراق جديد في تصميم البروتين باستخدام تقنية الذكاء الاصطناعي

يستخدم بروتينا، باعتباره نموذجًا لبنية البروتين القائم على التدفق، بنية محولة مبتكرة غير متكافئة وقابلة للتطوير، مستوحاة من محول الانتشار في المجال البصري. يمكنه تحقيق الأداء العالي حتى بدون الاعتماد على طبقة المثلث المكلفة حسابيًا.يتيح هذا تدريب Proteina على ما يصل إلى 21 مليون بنية بروتينية، وهو ما يمثل زيادة قدرها 35 ضعفًا في بيانات التدريب، مما يؤدي في النهاية إلى إنشاء هياكل أساسية لما يصل إلى 800 بقايا.مع الحفاظ على القدرة على التصميم والتنوع، فهو أفضل بكثير من جميع الأعمال السابقة.

سير عمل بروتينا

كما هو موضح في الشكل أدناه، تستخدم هذه الدراسة بشكل أساسي مجموعة بيانات DFS الخاصة بـ Foldseek AFDB المستخدمة بواسطة Genie2.وتغطي مجموعة البيانات ما يقرب من 600000 بروتين هيكلي اصطناعي.وفي الوقت نفسه، استخدمت الدراسة أيضًا مجموعة فرعية D21M من AFDB المفلترة عالية الجودة من حوالي 214 مليون بنية AFDB.تحتوي هذه المجموعة الفرعية على ما يقرب من 21 مليون بروتين هيكلي صناعي.

إحصائيات مجموعة البيانات

وبناءً على مجموعتي البيانات المذكورتين أعلاه، قام الباحثون بتدريب ثلاثة نماذج بروتينية أخرى: الأول هو نموذج MFS، الذي يحتوي على محول يحتوي على 200 مليون معلمة وطبقة مثلثة تحتوي على 10 ملايين معلمة؛ النموذج الثاني هو نموذج Mno-triFS، والذي يحتوي فقط على محول يحتوي على 200 مليون معلمة، ولكنه لا يحتوي على أي طبقة مثلثة أو تحديثات تمثيل زوجي؛ النموذج الثالث هو نموذج M21M، والذي يحتوي على محول يحتوي على 400 مليون معلمة وطبقة مثلثة تحتوي على 15 مليون معلمة.

في مجال توليد بنية البروتين غير المشروط، سيطرت طرق التكاثر المتساوي لفترة طويلة، لكن بروتينا يوضح أن نماذج التدفق غير التكاثري المتساوي واسعة النطاق يمكن أن تكون ناجحة أيضًا. تتجاوز معلمات إصدار التدريب الخاص به 400 مليون.إنه أكبر بخمس مرات من RFdiffusion، وهو حاليًا أكبر مولد للعمود الفقري للبروتين.وتظهر النتائج أيضًا أن النماذج المدربة على البحث الخالي من الأخطاء تُظهر تنوعًا أعلى، ولكن الباحثين يمكنهم أيضًا إنشاء كميات أكبر بكثير من البيانات عالية الجودة من الهياكل الاصطناعية بالكامل مقارنة بالبحث الخالي من الأخطاء.

فيما يتعلق بمؤشرات التقييم، لا تكتفي شركة Proteina بالتقييمات التقليدية للتنوع والابتكار والقدرة على التصميم، ولكنها تقدم مؤشرات تقييم مبتكرة - من خلال إدخال العلامات التجريبية لـ DFS مباشرة في النموذج. تعمل هذه الخطوة على تعزيز التنوع بين الهياكل القابلة للطي المختلفة، مما يوفر سيطرة غير مسبوقة على الهياكل البروتينية الاصطناعية من خلال قيود فئة قابلة للطي الجديدة.

كما هو موضح في الشكل أدناه، بالمقارنة مع التوليد غير المشروط، يحقق النموذج الشرطي لـ Proteina التنوع الأكثر تقدمًا في TM-Score مع تحقيق أفضل درجات FPSD وfS وfJSD.يوضح هذا بشكل كامل ميزته في طي تنوع البنية "fS" والتوافق التوزيعي الأفضل بين البنية الناتجة وبيانات المرجع.

بروتينا مقابل خط الأساس للجيل غير المشروط

بالإضافة إلى ذلك، قامت شركة Proteina بتكييف هدف مطابقة التدفق لاستيعاب إنشاء بنية البروتين واستكشفت استراتيجيات التدريب التدريجي، مثل استخدام LoRA لضبط النموذج لتمكينه من إنشاء بروتينات طبيعية قابلة للتصميم. كما قامت بتطوير مخططات توجيهية جديدة لشروط فئة الطي الهرمية وأظهرت بنجاح التوجيه الذاتي لتعزيز إمكانية تصميم البروتينات.من حيث أداء توليد العمود الفقري للبروتين، وصلت بروتينا إلى مستوى SOTA، وخاصة في تركيب السلسلة الطويلة.إنه يتفوق بشكل كبير على جميع النماذج الأساسية ويظهر قدرات تحكم متفوقة على النماذج السابقة من خلال قيود حالة فئة الطي الجديدة.

الابتكارات الناشئة في مجال تصميم بروتين الذكاء الاصطناعي في الصين

وفي الوقت الحالي، مع إشعال DeepSeek مرة أخرى لنموذج اللغة الكبير، فإن مجال تصميم البروتين سوف يفتح بلا شك فرص تطوير جديدة، وسوف تظهر المزيد والمزيد من القوى الصينية. وفي الواقع، نجح الباحثون والشركات الصينية حتى الآن في إنتاج العديد من النتائج في مجال تصميم بنية البروتين وحده.

في عام 2022،أطلق مختبر شنغهاي تيانرانج XLab، الذي يعتمد على الذكاء الاصطناعي، منصة جديدة لتصميم البروتين - TRDesign. يمكن لـ TRDesign استكشاف جميع الاحتمالات المحتملة بدقة في مساحة طي البروتين من خلال التعرف على الكثير حول العلاقة بين تسلسل البروتين وبنيته، ورسم خريطة عكسية لارتباط التسلسل والبنية والوظيفة المستفادة من طي البروتين، وإجراء تصميم شامل للبروتين واختباره واستقراره وتحسين التقارب من الصفر، وبالتالي تصميم هياكل البروتين التي تلبي الطلب بشكل أفضل.

في عام 2023،أطلق البروفيسور جينبو شو، مؤسس شركة Molecular Heart، النموذج الكبير لـ NewOrigin في مؤتمر الذكاء الاصطناعي العالمي لعام 2023 "WAIC".من خلال التعلم من مئات المليارات من البيانات الضخمة متعددة الوسائط، يمكن للنموذج تحقيق توليد موجه متعدد الوسائط. يمكن لنموذج واحد تلبية متطلبات العملية الكاملة لتوليد البروتين، بما في ذلك توليد التسلسل، والتنبؤ بالبنية، والتنبؤ بالوظيفة، والتصميم الجديد. ويمكنه حل مشكلة توليد بروتينات وظيفية محددة مطلوبة للتطبيقات الصناعية وتقييم آثارها وقيمتها في بيئة صناعية حقيقية.

في أبريل 2024، تعاونت شركة Wuxi Tushen Zhihe Artificial Intelligence Technology Co., Ltd. مع العديد من مؤسسات البحث لـتم إطلاق أول نموذج كبير لبروتين النصوص باللغة الطبيعية في الصين TourSynbio. يفتح نموذج TourSynbio الكبير عملية تصميم البروتين ويحقق "تصميم البروتين بالذكاء الاصطناعي في واحد". يمكنه توفير تمثيل متعمق لأي بروتين، ودعم الحوار والمطالبات باللغة الطبيعية، وتبسيط عملية تصميم البروتين إلى حد كبير.

أغسطس 2024واقترح فريق تشانغ هايكانج من معهد تكنولوجيا الحوسبة التابع للأكاديمية الصينية للعلوم مشروع كاربونوفو.وقد نشرت هذه النتيجة في ICML2024. تقوم شركة CarbonNovo بتصميم هيكل العمود الفقري للبروتين وتسلسله بطريقة متكاملة. ويعمل على تحسين كفاءة التصميم والأداء بشكل فعال من خلال إنشاء نموذج طاقة مشترك وإدخال نموذج لغة البروتين، مما يُظهر مزايا كبيرة مقارنة بنموذج التصميم المكون من مرحلتين الحالي.
رابط الورقة:

https://openreview.net/pdf?id=FSxTEvuFa7 رابط الكود:

https://github.com/zhanghaicang/carbonmatrix_public

في أكتوبر 2024، قام فريق البروفيسور ليو هاي يان والبروفيسور تشين كوان من كلية علوم الحياة والطب بجامعة جنوب كاليفورنيا للتكنولوجيا،لقد قمنا بتطوير نموذج احتمالية انتشار إزالة الضوضاء من العمود الفقري للبروتين SCUBA-D والذي لا يعتمد على شبكة التنبؤ بالهيكل المدربة مسبقًا.يمكنه تصميم هيكل السلسلة الرئيسية تلقائيًا من الصفر، وتشكيل سلسلة أدوات كاملة يمكنها تصميم بروتينات اصطناعية بهياكل وتسلسلات جديدة من الصفر. إنها الطريقة الوحيدة لتصميم البروتين الجديد التي تم التحقق منها تجريبياً بالكامل إلى جانب طريقة RosettaDesign. وقد نشرت النتائج ذات الصلة في مجلة Nature Methods.
رابط الورقة:

https://doi.org/10.1038/s41592-024-02437-W

في عام 2025، قام فريق لو بيلونج في جامعة ويستليك بدمج التعلم العميق والأساليب القائمة على الطاقةتم تصميم بروتين tmFAP المنشط بالفلورسنت عبر الغشاء، والذي يمكنه الارتباط بشكل خاص بالربيطات الفلورية، بنجاح.تم استخدام خوارزميات التعلم العميق لحل المشاكل الأساسية في تصميم البروتين عبر الغشاء. ولأول مرة، تم التوصل إلى التصميم الدقيق للتفاعلات غير التساهمية بين البروتينات عبر الغشاء وجزيئات الربيطة داخل الغشاء، وتم إثبات قدرتها على تنشيط الفلورسنت في الخلايا الحية، مما فتح مسارات جديدة لتصميم وتطبيق البروتينات عبر الغشاء. تم نشر هذا البحث في مجلة Nature، وهي مجلة أكاديمية دولية مرموقة.
رابط الورقة:

https://www.nature.com/articles/s41586-025-08598-8

في الوقت الحاضر، قامت الصين بتشكيل نظام بيئي تكنولوجي فريد من نوعه في مجال تصميم البروتين المعتمد على الذكاء الاصطناعي. ولا ينعكس التقدم الرائد في مستوى ابتكار الخوارزمية فحسب، بل ينعكس أيضًا في بناء سلسلة ابتكار كاملة من النظرية الأساسية إلى التطبيق الصناعي. ويؤكد ظهور هذه الإنجازات بشكل كامل عمق واتساع الاختراقات التكنولوجية التي حققتها الصين في مجال تصميم البروتين. مع التطور المستمر لتكنولوجيا الذكاء الاصطناعي، أعتقد أنه سيكون هناك المزيد من الإنجازات الرائعة في المستقبل، مما سيؤدي إلى تحول نموذجي في تطوير أبحاث العلوم الحياتية العالمية وصناعة الأدوية الحيوية.