HyperAI

تم اختيار خوارزمية DRAKES من قبل معهد ماساتشوستس للتكنولوجيا وجامعة كاليفورنيا في بيركلي وجامعة هارفارد وجامعة ستانفورد وآخرين، والتي تم اختيارها لمؤتمر ICLR 2025، لكسر عنق الزجاجة في تصميم التسلسل البيولوجي.

特色图像

لفترة طويلة، لم يتم اختراق عنق الزجاجة الأساسي في مجال تصميم البروتين: إن الفضاء التوافقي لتسلسلات الأحماض الأمينية ينمو بشكل كبير، وغالبًا ما تفقد الأساليب الحسابية التقليدية التركيز على أحدها أثناء تحسين طبيعية واستقرار التسلسل. وفي مجال العلاج الجيني، يواجه العلماء أيضًا تحدي تصميم عناصر الحمض النووي التي تنظم التعبير الجيني بكفاءة؛ في تطوير لقاحات mRNA، يوجد دائمًا تناقض بين تحسين التسلسل وتحسين كفاءة الترجمة؛ حتى في مهام توليد اللغة الطبيعية، يحتاج المهندسون إلى البحث عن التوازن بين الصحة النحوية وأمان المحتوى. تشير هذه التحديات المتفرقة ظاهريًا إلى نفس الاختناق الفني:كيفية تحسين أهداف المهام المحددة أثناء إنشاء تسلسلات منفصلة تتوافق مع التوزيعات الإحصائية؟

ولمعالجة هذا التحدي الرئيسي، اقترح باحثون من معهد ماساتشوستس للتكنولوجيا، وجامعة هارفارد، وجامعة ستانفورد، وجامعة كاليفورنيا في بيركلي، وشركة جينينتيك الأمريكية لتكنولوجيا الهندسة الوراثية، خوارزمية مبتكرة تسمى DRAKES.من خلال تقديم إطار عمل التعلم التعزيزي، تدرك الخوارزمية لأول مرة الانتشار الخلفي للمكافأة القابل للتفاضل للمسار الكامل الناتج في نموذج الانتشار المنفصل.تظهر التجارب أن DRAKES يمكنه تحسين أداء المهام اللاحقة بشكل كبير مع الحفاظ على طبيعية التسلسل. ويكشف تحليلها النظري أيضًا عن مسار الحل الأمثل لهذه الطريقة في تحقيق التوازن بين دقة التوزيع وتحسين المهام.

وقد تم اختيار نتائج البحث ذات الصلة لمؤتمر ICLR 2025 تحت عنوان "ضبط نماذج الانتشار المنفصلة من خلال تحسين المكافأة مع التطبيقات على تصميم الحمض النووي والبروتين". لفترة طويلة، لم يتم اختراق عنق الزجاجة الأساسي في مجال تصميم البروتين: إن الفضاء التوافقي لتسلسلات الأحماض الأمينية ينمو بشكل كبير، وغالبًا ما تفقد الأساليب الحسابية التقليدية التركيز على أحدها أثناء تحسين طبيعية واستقرار التسلسل. وفي مجال العلاج الجيني، يواجه العلماء أيضًا تحدي تصميم عناصر الحمض النووي التي تنظم التعبير الجيني بكفاءة؛ في تطوير لقاحات mRNA، يوجد دائمًا تناقض بين تحسين التسلسل وتحسين كفاءة الترجمة؛ حتى في مهام توليد اللغة الطبيعية، يحتاج المهندسون إلى البحث عن التوازن بين الصحة النحوية وأمان المحتوى. تشير هذه التحديات المتفرقة ظاهريًا إلى نفس الاختناق الفني:كيفية تحسين أهداف المهام المحددة أثناء إنشاء تسلسلات منفصلة تتوافق مع التوزيعات الإحصائية؟

ولمعالجة هذا التحدي الرئيسي، اقترح باحثون من معهد ماساتشوستس للتكنولوجيا، وجامعة هارفارد، وجامعة ستانفورد، وجامعة كاليفورنيا في بيركلي، وشركة جينينتيك الأمريكية لتكنولوجيا الهندسة الوراثية، خوارزمية مبتكرة تسمى DRAKES.من خلال تقديم إطار عمل التعلم التعزيزي، تدرك الخوارزمية لأول مرة الانتشار الخلفي للمكافأة القابل للتفاضل للمسار الكامل الناتج في نموذج الانتشار المنفصل.تظهر التجارب أن DRAKES يمكنه تحسين أداء المهام اللاحقة بشكل كبير مع الحفاظ على طبيعية التسلسل. ويكشف تحليلها النظري أيضًا عن مسار الحل الأمثل لهذه الطريقة في تحقيق التوازن بين دقة التوزيع وتحسين المهام.

وقد تم اختيار نتائج البحث ذات الصلة لمؤتمر ICLR 2025 تحت عنوان "ضبط نماذج الانتشار المنفصلة من خلال تحسين المكافأة مع التطبيقات على تصميم الحمض النووي والبروتين".

عنوان الورقة:

https://doi.org/10.48550/arXiv.2410.13643
اتبع الحساب العام "HyperAI Super Neural" وأجب بـ "DRAKES" للحصول على ملف PDF الكامل

مشروع مفتوح المصدر "awesome-ai4s"إنه يجمع أكثر من 100 تفسير لورقة AI4S ويوفر مجموعات بيانات وأدوات ضخمة:

https://github.com/hyperai/awesome-ai4s

مجموعة البيانات: يتم استخدام مجموعات بيانات متعددة معًا لتحقيق تقييم أداء متعدد الأبعاد لـ DRAKES

تركز هذا البحث حول تسلسل الحمض النووي التنظيمي وتصميم تسلسل البروتين، باستخدام مجموعات بيانات عامة متعددة لدعم التحقق التجريبي. في تصميم تسلسلات الحمض النووي التنظيمية، استخدمت الدراسة مجموعة بيانات معززة واسعة النطاق، تحتوي على ما يقرب من 700000 تسلسل حمض نووي بطول 200 زوج قاعدي. من خلال اختبارات المراسل المتوازية الضخمة (MPRAs)، تم قياس نشاط المعزز في خطوط الخلايا البشرية، مما يوفر بيانات أساسية للتدريب المسبق للنموذج وبناء أوراكل المكافأة.

قدمت التجربة أيضًا بيانات إمكانية الوصول إلى الكروماتين لخط خلية HepG2.يتم استخدامه لتقييم إمكانية الوصول إلى الكروماتين في التسلسلات الاصطناعية بشكل مستقل للتحقق من موثوقية النشاط المتوقع. بالإضافة إلى ذلك، تم استخدام ملف تعريف ارتباط عامل النسخ JASPAR لمسح التسلسلات المولدة بحثًا عن أنماط ارتباط عامل النسخ المحتملة، مما يساعد في تحليل السمات الرئيسية لنشاط المعزز.


في مهمة تصميم تسلسل البروتين، يعتمد نموذج الطي العكسي المدرب مسبقًا على مجموعة تدريب PDB، والتي تغطي بيانات بنية وتسلسل البروتينات الطبيعية. يعتمد تدريب أوراكل المكافأة على مجموعة البيانات الضخمة.تحتوي مجموعة البيانات على ما يقرب من 1.8 مليون متغير تسلسلي من 983 مجالًا طبيعيًا ومصممًا.يتم توفير مقاييس الاستقرار لتقييم الخصائص الوظيفية للتسلسلات المولدة. بعد فحص البيانات وتقسيمها باستخدام العمليات القياسية، تم تشكيل ما يقرب من 500000 تسلسل من 333 مجالاً، والتي تم استخدامها لبناء نموذج مكافأة للضبط الدقيق والتقييم. ويضمن الاستخدام المشترك لهذه المجموعات من البيانات أن يتمكن البحث من التحقق بشكل فعال من وظائف وتشابه طبيعي واستقرار التسلسلات التي تم إنشاؤها بواسطة النموذج في مهام تصميم الجزيئات الحيوية المختلفة، مما يوفر دعمًا تجريبيًا متعدد الأبعاد لتقييم أداء طريقة DRAKES.

خوارزمية DRAKES: تعتمد على بنية من مرحلتين وتجارب مزدوجة للتحقق من إمكانية تطبيقها في السيناريوهات الطبية الحيوية

واقترح الباحثون خوارزمية تسمى DRAKES لضبط نماذج الانتشار المنفصلة لتحسين وظيفة المكافأة لأهداف مهمة محددة.تجمع الخوارزمية بين إطار التعلم المعزز (RL) و Gumbel-Softmax.تم حل مشكلة التوازن بين تعظيم المكافآت والحفاظ على الطبيعية في نماذج الانتشار المنفصلة. الفكرة الأساسية لـ DRAKES هي التأكد من أن التسلسل الناتج يظل مشابهًا لتوزيع النموذج المدرب مسبقًا مع تحسين المكافأة عن طريق إدخال قيد التباعد KL.

على وجه التحديد، يتبنى DRAKES بنية ذات مرحلتين، والتي تم تصميمها لعملية أخذ العينات وعملية التحسين على التوالي. في مرحلة أخذ العينات من البيانات، تقوم الخوارزمية بإنشاء مسارات عبر سلسلة ماركوف الزمنية المستمرة (CTMC) وتستخدم تقنية Gumbel-Softmax لتحويل عملية أخذ العينات المنفصلة إلى عمليات قابلة للتفاضل. تقوم هذه التقنية بتقريب توزيع التصنيف من خلال softmax، مع الحفاظ على صحة العينة والاحتفاظ بمعلومات التدرج عند معلمات درجة الحرارة المنخفضة.يكسر هذا التصميم قيود عدم القدرة على التمايز في نماذج الانتشار المنفصلة التقليدية.ويوفر أساسًا نظريًا للتحسين اللاحق.

في مرحلة التحسين،تقوم الخوارزمية بتحديث المعلمات عن طريق تعظيم دالة الهدف التجريبية.يمكن أن يؤدي الجمع بين تقنية Truncated Back-Propagation وStraight-Through Gumbel Softmax إلى تحسين كفاءة التدريب بشكل فعال. لا تضمن هذه الهندسة المعمارية طبيعية التسلسلات المولدة فحسب، بل تتجنب أيضًا خطر الإفراط في التحسين من خلال قيد تباعد KL، وبالتالي تحقيق توازن ديناميكي بين تعظيم المكافأة ودقة التوزيع.

ولتحقق من فعالية خوارزمية DRAKES، أجرى الباحثون تقييمًا تجريبيًا شاملاً في مهمتين رئيسيتين: تصميم تسلسل الحمض النووي التنظيمي وتصميم تسلسل البروتين.تثبت النتائج التجريبية بشكل منهجي قدرة DRAKES على تحسين خصائص الهدف بشكل كبير مع الحفاظ على طبيعية التسلسل.


في مهمة تحسين تسلسل الحمض النووي التنظيمي، أظهرت تسلسلات المعزز التي تم إنشاؤها بواسطة DRAKES تحسينات تآزرية في النشاط المتوقع (النشاط المسبق = 0.78) وإمكانية الوصول إلى الكروماتين (ATAC-Acc = 0.81) في خط خلية HepG2، مع الحفاظ على ارتباط النوكليوتيدات الثلاثية (0.92) وارتباط نمط JASPAR (0.88) بالقرب من التسلسل الطبيعي. ومن الجدير بالذكر أنه على الرغم من أن الإصدار بدون تنظيم KL حقق نشاطًا تنبؤيًا أعلى (Pred-Activity=0.85)، إلا أن أداءه على مؤشر التحقق المستقل ATAC-Acc (0.72) انخفض، مما يكشف عن خطر أن الإفراط في التحسين قد يتسبب في انحراف التسلسلات المولدة عن التوزيع الطبيعي.

في مهمة تحسين استقرار البروتين، حققت التسلسلات التي تم إنشاؤها بواسطة DRAKES أفضل توازن بين الاستقرار المتوقع (Pred-ddG = -1.23 kcal/mol) والاتساق البنيوي (معدل نجاح scRMSD <2 83%). تظهر التجارب المقارنة أنه على الرغم من أن الإصدار بدون تنظيم KL يعمل بشكل أفضل في الاستقرار التنبئي (Pred-ddG = -1.45 كيلو كالوري / مول)، فإن اتساقه الذاتي البنيوي ينخفض بشكل كبير (معدل نجاح scRMSD <2 هو 61% فقط). تم التحقق من ذلك من خلال المحاكاة الفيزيائية لبرنامج PyRosetta، حيث أن طاقة جيبس الحرة (ΔG=-15.2 كيلو كالوري/مول) للتسلسل الناتج عن DRAKES تحت هيكل السلسلة الرئيسية المستهدفة أقل بمقدار 21% من تلك الموجودة في طريقة الأساس، مما يؤكد بشكل أكبر العقلانية الفيزيائية لنتائج تحسينها.

تظهر النتائج التجريبية أن خوارزمية DRAKES تحافظ على طبيعية التسلسل (احتمالية السجل App-Log-Lik=-1.05).تم تحسين قدرات تحسين السمات المستهدفة بشكل كبير.في تصميم عناصر تنظيم الجينات، يتم تحسين نشاط المعزز بواسطة 35%؛ في تصميم الأدوية البروتينية، تم تحسين الاستقرار بواسطة 28%. لا تؤكد هذه النتائج إمكانات تطبيق DRAKES في السيناريوهات الطبية الحيوية الرئيسية فحسب، بل تؤسس أيضًا لنموذج تقني جديد لمهام تحسين التسلسل استنادًا إلى نماذج الانتشار المنفصلة.

الإنجازات المبتكرة التي حققتها الصين في نماذج الانتشار المنفصلة وتصميم التسلسل البيولوجي

في السنوات الأخيرة، قامت الصين ببناء نظام تقني كامل من الابتكار النظري إلى التطبيق الصناعي في مجال نماذج الانتشار المنفصلة وتصميم التسلسل البيولوجي، واقترحت عددًا من الأساليب الأصلية ضمن الإطار النظري لنماذج الانتشار المنفصلة. على سبيل المثال، يدمج نموذج الانتشار المنفصل الزائدي ثلاثي الأبعاد للحمض النووي الريبي الذي طورته شركة شنغهاي يوانما للأدوية الذكية السمات الهندسية للحمض النووي الريبي في الفضاء الزائدي ويستخدم خصائص النمو الأسي للهندسة الزائدية لتحقيق رسم خرائط دقيقة للبنية والتسلسل في ظل ظروف العينة المحدودة. تظهر البيانات التجريبية أنإن التشابه بين التسلسل الناتج والبنية المستهدفة أعلى بمقدار 23% من الطريقة التقليدية.ويظهر مزايا كبيرة، خاصة في التنبؤ بهياكل العقدة الزائفة المعقدة.ويشير هذا النهج المبتكر لدمج الهندسة التفاضلية مع النماذج التوليدية إلى أن الصين دخلت مرحلة جديدة من "النموذج المحدد ذاتيا" في مجال الحوسبة الجزيئية الحيوية.


وفي مجال العلاج الجيني،الدواء لعلاج الصمم الوراثي تم تطويره من قبل فريق لي هواوي في جامعة فودان.ومن خلال تنظيم التعبير الوظيفي لتسلسلات الحمض النووي بدقة، تم تحقيق معدل تحسن في السمع بلغ 68% في التجارب السريرية.ويتمثل جوهر التكنولوجيا في إنشاء نظام تحسين ثلاثي المستويات "تحرير التسلسل - التنظيم الجيني - التحقق الوظيفي".وهو يشكل توافقًا عميقًا مع مفهوم التحسين الاتجاهي لنموذج الانتشار المنفصل على المستوى المنهجي. ويرجع هذا الاختراق إلى الدعم السياسي لـ "مجموعة تشانجبينج لمنطقة التجارة الحرة التجريبية في الصين (بكين) لدعم صناعة الأدوية والصحة" (2023)، والتي تدرج بوضوح العلاج الخلوي والجينات كتوجه رئيسي وتتطلب الابتكار التعاوني الكامل لسلسلة "تصميم الخوارزمية - التحقق التجريبي - التحول السريري".
رابط المقال:

https://doi.org/10.1016/S0140-6736(23)02874-X


توفر منصة الحوسبة المخصصة التي نشرها المركز الوطني الصيني للمعلومات الحيوية (CNCB) بنية تحتية استراتيجية لتصميم التسلسل البيولوجي على نطاق واسع ويمكنها إكمال عمليات محاكاة طي البروتين بسرعة والتي تستغرق شهورًا في المختبرات التقليدية. وقد نجحت المرحلة الأولى من تقدم البحث في اتحاد الجينوم الصيني (CPC)، الذي أصدره بشكل مشترك 26 مؤسسة بما في ذلك جامعة فودان وجامعة شيآن جياوتونغ والأكاديمية الصينية للعلوم الطبية، في بناء أول خريطة مرجعية للجينوم الشامل خاصة بالسكان الصينيين، مما وضع الأساس لفك شفرة الشفرة الوراثية للسكان الصينيين.إن نموذج الدفع الثنائي للقوة الحاسوبية + البيانات يحل بفعالية نقطتي الألم الرئيسيتين في تصميم التسلسل البيولوجي: مشكلة خصوصية السكان والاختراق الذي أحرزته تأثير الذيل الطويل.


وفي مواجهة المخاطر المحتملة للتسلسلات البيولوجية التي تولدها الذكاء الاصطناعي، قام المؤتمر الشعبي الوطني بمراجعة "قانون السلامة البيولوجية لجمهورية الصين الشعبية" في عام 2024، مع التركيز على "منع مخاطر السلامة البيولوجية الناجمة عن إساءة استخدام تكنولوجيا الذكاء الاصطناعي".ومن المطلوب تنفيذ الإشراف الكامل على سلسلة التقنيات مثل تحرير الجينات والبيولوجيا الاصطناعية.وضع حدود آمنة للتطور التكنولوجي.


في الوقت الحاضر، شكلت الصين سلسلة ابتكار كاملة من "النظرية - التطبيق - المرافق - المعايير" في مجالات نماذج الانتشار المنفصلة وتصميم التسلسل البيولوجي. ولن تؤدي هذه التطورات إلى إعادة تشكيل المنطق الأساسي للبحث والتطوير في مجال الطب الحيوي فحسب، بل من المرجح أيضاً أن تؤدي إلى ظهور جيل جديد من ثورة صناعة التكنولوجيا الحيوية. وكما ذكرت صحيفة مكة الإعلامية السعودية: "الصين لا تكتفي بمواكبة الغرب، بل تُرسّخ أيضًا سماتها الابتكارية. ويركز الجيل الشاب من المبتكرين على التقنيات المتقدمة، مما يجعل الصين قوة رائدة عالميًا في مجال التكنولوجيا الحيوية، ومن المتوقع أن تصبح قوة عالمية في هذا المجال".

مراجع:

1.https://export.shobserver.com/baijiahao/html/709277.html

2.https://www.ncsti.gov.cn/kjdt/yqdy/cpy2/zchj/202410/t20241012_181850.html

3.https://sghexport.shobserver.com/html/baijiahao/2023/06/15/1051928.html

4.http://news.china.com.cn/2025-01/03/content_117643069.shtml