تم اختياره لـ ICML 2025، اقترحت جامعة تسينغهوا/جامعة رينمين الصينية/ByteDance أول إطار عمل موحد لتوليد الجزيئات المتقاطعة UniMoMo لتحقيق تصميم جزيء دواء متعدد الأنواع

اقترحت المجموعة التي يقودها البروفيسور ليو يانغ من جامعة تسينغهوا، والمجموعة التي يقودها البروفيسور هوانغ وين بينج من كلية جاولينغ للذكاء الاصطناعي في جامعة رينمين في الصين، وفريق الأدوية التابع لشركة ByteDance AI، إطار عمل موحدًا لتوليد الأنواع الجزيئية، UniMoMo.يمثل هذا الإطار بشكل موحد أنواعًا مختلفة من الجزيئات استنادًا إلى الأجزاء الجزيئية (الكتل)، ويستخدم مشفرات ذاتية متغيرة لضغط تكوين الذرة الكامل لكل كتلة، وينفذ نمذجة الانتشار الهندسي في الفضاء الكامن المضغوط، وبالتالي تحقيق تصميم أنواع مختلفة من جزيئات الارتباط (الجزيئات الصغيرة، الببتيدات، الأجسام المضادة) لنفس الهدف. يحقق UniMoMo أداءً رائدًا في معايير المهام الجزيئية المتعددة، مما يوضح الإمكانات الكبيرة لنقل المعرفة عبر الوسائط ومشاركة البيانات.

وقد تم اختيار النتائج ذات الصلة لمؤتمر ICML 2025 تحت عنوان "UniMoMo: النمذجة التوليدية الموحدة للجزيئات ثلاثية الأبعاد لتصميم الرابط الجديد".
عنوان الورقة:
عنوان مشروع المصدر المفتوح:
https://github.com/kxz18/UniMoMo
لماذا النمذجة الموحدة؟
تتمتع الأنواع الجزيئية المختلفة بمزاياها وعيوبها الخاصة في تطوير الأدوية، لذلك غالبًا ما يكون من الضروري اختيار النوع الجزيئي الأكثر ملاءمة في سيناريوهات الأمراض المختلفة. على سبيل المثال:
* الجزيئات الصغيرة صغيرة الحجم، وسهلة التناول عن طريق الفم، ولها قدرة اختراق قوية، مما يجعلها مناسبة لدخول الخلايا والتأثير على الأهداف. يتم استخدامها على نطاق واسع في الأمراض المزمنة والأمراض الأيضية؛
* تمتلك جزيئات الببتيد خصائص استهداف عالية ويمكنها الارتباط بمساحات كبيرة ومسطحة على سطح البروتينات. وهي مناسبة لاستهداف مواقع التفاعل البروتيني "الصعب علاجها" وكثيرا ما تستخدم في علاج السرطان والالتهابات وما إلى ذلك.
* تتمتع الأجسام المضادة بقدرة انتقائية وتقارب عالية للغاية، ويمكنها التعرف بشكل ثابت على علامات بروتينية محددة، مما يجعلها مناسبة بشكل خاص لسيناريوهات التدخل الدقيقة مثل العلاج المناعي.
لذلك، في مواجهة آليات المرض المختلفة، وخصائص الهدف واحتياجات الأدوية، فإن أنواع الجزيئات المناسبة للاستخدام تختلف. عادةً ما تقوم الطرق التوليدية الموجودة بنمذجة فئة معينة من الجزيئات فقط (مثل الجزيئات الصغيرة أو الببتيدات أو الأجسام المضادة).فهو لا يستطيع تلبية الاحتياجات العلاجية المتنوعة ولا الاستفادة من القواسم المشتركة بين الجزيئات المختلفة لتحسين أداء النموذج.
من منظور التطبيق، يسمح لنا النمذجة الموحدة باستكشاف أنواع متعددة من مرشحي الأدوية في وقت واحد لنفس الهدف، مما يوفر المزيد من الخيارات للسيناريوهات المختلفة اللاحقة.
من منظور التعلم الآلي، تشترك أنواع مختلفة من الجزيئات في قواعد ربط مماثلة (الروابط الهيدروجينية، وتكديس π-π، والجسور الملحية، وما إلى ذلك) والقيود الهندسية (أطوال الروابط، وزوايا الروابط، وما إلى ذلك)، ويمكنها التعلم من بعضها البعض.لذلك، ينبغي أن يكون النمذجة الموحدة قادرة على تحسين قدرات التعميم والنقل المتبادل للنموذج من خلال الاستفادة من مقياس بيانات أكبر.

صعوبة النمذجة الموحدة التوليدية
على الرغم من أن فكرة توليد أنواع مختلفة من الجزيئات بشكل موحد مثيرة، إلا أن هناك تحديات ضخمة لا تزال قائمة في تحقيق مثل هذا الإطار، وخاصة في اختيار التمثيل الجزيئي وتصميم خوارزمية التوليد.
أولاً، هناك اختلافات كبيرة في التمثيل البنيوي لأنواع الجزيئات المختلفة: تتكون الجزيئات الصغيرة من مجموعات وظيفية مختلفة، وبنياتها متنوعة للغاية وغير خطية؛ في حين تتكون الببتيدات والأجسام المضادة من الأحماض الأمينية المرتبطة في تسلسل خطي، والأجسام المضادة على وجه الخصوص لديها تقسيمات وظيفية واضحة للمناطق. إن النهج البديهي ولكن الضعيف هو نمذجة جميع الجزيئات على شكل رسوم بيانية للذرات.ومع ذلك، يتجاهل هذا النهج البنية الهرمية الطبيعية للجزيئات، مثل البنى الفرعية الرئيسية مثل حلقات البنزين أو الأحماض الأمينية القياسية، ويؤدي إلى تكاليف حسابية عالية للغاية عند التعامل مع أنظمة ذات أسطح ربط كبيرة مثل الأجسام المضادة.
على العكس من ذلك، إذا تم استخدام مفردات الشظايا الهيكلية الشائعة فقط لبناء الرسوم البيانية على مستوى الشظايا (على سبيل المثال، معظم أعمال تصميم البروتين تأخذ في الاعتبار C فقط)ألفا تنسيق)،إن تجاهل التفاصيل على المستوى الذري سوف يؤدي إلى التضحية بإمكانية نقل ودقة توليد الجزيئات.نظرًا لأن القوانين الأساسية لتصميم جزيئات الارتباط هي التفاعل المكاني مع الهدف والقيود الهندسية داخل الجزيء، فهذه قوانين فيزيائية محددة على المستوى الذري وتتطلب دعمًا دقيقًا للمعلومات الخاصة بجميع الذرات.
لذلك، لبناء تمثيل جزيئي موحد فعال وكفء حقًا، لا بد من حل تحديين في وقت واحد:من الضروري الاحتفاظ بالتفاصيل الهندسية على المستوى الذري مع تجريد المسبقات الهرمية البنيوية.
ثانيًا، إذا تم إدخال أجزاء هيكلية في عملية التوليد للحفاظ على التسلسل الهرمي المسبق، فسوف يؤدي ذلك إلى ظهور تحديات أساسية لخوارزمية التوليد:تعتمد نماذج الانتشار التقليدية عادةً على تمثيلات البيانات ذات الطول الثابت والبنية الثابتة.على سبيل المثال عدد ثابت من السحب النقطية أو الذرات. بالنسبة لنماذج التنبؤ بالهيكل مثل AF3، نظرًا لأن الطوبولوجيا ثنائية الأبعاد محددة مسبقًا، فإن عملية الانتشار لن تسبب تغييرات في عدد الذرات أو الهيكل ثنائي الأبعاد. بالنسبة لمهمة التوليد الجزيئي، يجب إنشاء طوبولوجيا ثنائية الأبعاد وبنية ثلاثية الأبعاد في وقت واحد. عندما يتغير نوع الشظايا الهيكلية أثناء عملية إزالة الضوضاء، فإن العدد والنوع وترتيب الذرات المقابلة سوف يتغير أيضًا وفقًا لذلك. وهذا يكسر افتراضات نماذج الانتشار التقليدية ويضع مطالب عالية للغاية على النمذجة.
UniMoMo: نموذج توليدي موحد
من أجل حل مشكلة الاختلافات البنيوية الكبيرة وصعوبة النمذجة العالية لأنواع جزيئية مختلفة، يقترح المقال إطار عمل جديدًا - UniMoMo.يبدأ الأمر بتصميمين رئيسيين، مع الأخذ في الاعتبار بشكل فعال التسلسل الهرمي الهيكلي والدقة على المستوى الذري:
* التمثيل الموحد:يتم نمذجة جميع أنواع الجزيئات في شكل كتلة.
سواء كان جزيئًا صغيرًا أو ببتيدًا أو جسمًا مضادًا، فإن UniMoMo يمثل بنيته كرسم بياني يتكون من أجزاء جزيئية (كتل). يمكن أن تكون كل كتلة عبارة عن حمض أميني قياسي أو جزء جزيئي صغير شائع (مثل حلقة البنزين، أو الإندول، وما إلى ذلك). في تنفيذ المقالة، تتضمن الأجزاء الجزيئية المسجلة جميع الأحماض الأمينية القياسية وأجزاء الجزيئات الصغيرة التي يتم تحديدها تلقائيًا بواسطة خوارزمية التعدين الفرعية الأساسية. يمكن تصنيف جميع الأحماض الأمينية غير الطبيعية على أنها جزيئات صغيرة.يحتفظ هذا التمثيل بكل من تفاصيل المستوى الذري للجزيئات والبنية الهرمية لأنواع مختلفة من الجزيئات نفسها، مما يجعل النمذجة الموحدة ممكنة.
* نموذج الانتشار الضمني للفضاء الهندسي لجميع الذرات:إنشاء فعال للتمثيلات المضغوطة.
من أجل حل مشكلة التغيرات المتزامنة في نوع وكمية الذرات الناجمة عن التغيرات في أنواع الكتل أثناء عملية التوليد، وتحسين كفاءة التوليد والدقة البنيوية،تتناول المقالة تصميم مشفر ذاتي متغير تكراري ذري بالكامل (IterVAE).يتم ضغط جميع الذرات في كل كتلة في "نقطة" في الفضاء الكامن، بما في ذلك متجه تمثيل الفضاء الكامن بطول ثابت وإحداثيات الفضاء الكامن المقابلة.
ثم يقوم النموذج بتنفيذ النمذجة التوليدية في هذه المساحة الهندسية الكامنة المضغوطة لتوليد تمثيلات كامنة لجزيئات جديدة، والتي يتم فك شفرتها في النهاية إلى البنية الذرية الكاملة.نظرًا لأن تمثيل البيانات للمساحة الكامنة ثابت الطول (يتم تحديد عدد الكتل مسبقًا) ومستمر، فيمكن أن يكون متوافقًا بسهولة مع خوارزميات التوليد المختلفة الموجودة.وفي المحاولات الحالية، تمكنت نماذج الانتشار من إنتاج نتائج جيدة نسبيًا. يسمح هذا التصميم للنموذج بالتركيز على التخطيط العالمي بين الكتل أثناء عملية التوليد، بينما يتم إكمال الهيكل التفصيلي على المستوى الذري بواسطة جهاز فك التشفير، وبالتالي تحقيق وحدة الكفاءة العالية والدقة على المستوى الذري.

النمذجة الموحدة تتجاوز نمذجة المجال الواحد
من أجل التحقق من تنوع وفعالية UniMoMo على أنواع مختلفة من الجزيئات، أجرى المؤلفون تقييمًا منهجيًا في مهام التصميم المتعددة القائمة على البنية.ويغطي ثلاثة أنواع تمثيلية من جزيئات الارتباط: الجزيئات الصغيرة والببتيدات والأجسام المضادة.من خلال المقارنة مع نموذج توليد نوع الجزيء المفرد الأكثر تمثيلا في المجال المقابل، تهدف التجربة إلى استكشاف ما إذا كانت النمذجة الموحدة تتمتع بقدرات نمذجة هندسية أقوى وقدرات تعميم عبر الوسائط، خاصة من حيث المؤشرات الرئيسية مثل عقلانية البنية المكانية والقدرة على الربط.
وتظهر النتائج أنلقد حقق UniMoMo، الذي تم تدريبه بشكل موحد، تفوقًا شاملاً في جميع الأنواع الجزيئية.ولا يقتصر الأمر على تفوقه في دقة الترميم البنيوي فحسب، بل إنه يحقق أيضًا تحسينات كبيرة في العقلانية الهندسية الرئيسية وجودة التفاعل مع الهدف.

في مهمة توليد الببتيد،يتفوق UniMoMo بشكل كبير على النماذج الحالية الخاصة بالمجال في مؤشرات رئيسية متعددة.بما في ذلك RFDiffusion وPepFlow وPepGLAD وما إلى ذلك. وخاصة فيما يتعلق بالدقة البنيوية، حقق UniMoMo RMSD أقل للمركب والجزيء الأحادي، مما يشير إلى أن هياكل الببتيد التي أنشأها كانت أقرب إلى تكوين الارتباط الحقيقي.
يمكن لـ UniMoMo أيضًا إنشاء هياكل ذات طاقات ربط روزيتا أقل.يعكس هذا قدرتها الأقوى على النمذجة للميزات الهندسية لمواقع ربط البروتين.بالإضافة إلى ذلك، أظهر UniMoMo أيضًا أداءً رائدًا في مؤشرات العقلانية الهندسية مثل اتساق توزيع الزاوية ثنائية السطوح (JSD لالتواءات العمود الفقري / السلسلة الجانبية) والصراع المكاني على المستوى الذري (معدل التصادم) الذي يقيس جودة تكوين الببتيد. علاوة على ذلك، فإن UniMoMo (الكل)، والذي تم تدريبه باستخدام كافة البيانات، تفوق باستمرار على النموذج الذي تم تدريبه باستخدام بيانات الببتيد فقط في مؤشرات مختلفة.تم إثبات قدرة UniMoMo على التعلم والتعميم عبر الأنواع الجزيئية.


وأظهر UniMoMo أيضًا أداءً قويًا في مهمة تصميم الأجسام المضادة. بالمقارنة مع الطرق الموجودة مثل MEAN وdyMEAN وDiffAb،يتجاوز UniMoMo جميع الأهداف الأخرى من حيث المؤشرات الرئيسية مثل استدعاء التسلسلات والهياكل المرتبطة بشكل طبيعي (AAR و RMSD) وتحسين طاقة الارتباط (IMP).وخاصة في تقييم توليد العينات المتعددة، فإن UniMoMo قادر على توليد شظايا الأجسام المضادة القريبة من التكوين الطبيعي باحتمالية أعلى، مما يدل على قدرته الجيدة على الاستكشاف في مساحة بنية الأجسام المضادة.
على نحو مماثل، يتفوق UniMoMo(all)، الذي يتم تدريبه بشكل مشترك باستخدام بيانات من أنواع جزيئية مختلفة، على الإصدار الذي يتم تدريبه فقط باستخدام بيانات الأجسام المضادة في جميع المؤشرات.يوضح هذا أن النمذجة الموحدة تساعد النموذج على تعلم قوانين مكانية أكثر عالمية وقابلة للنقل للهياكل الجزيئية.تسلط هذه النتيجة الضوء على التشابهات في النمذجة البنيوية بين الأنواع الجزيئية المختلفة وتثبت القيمة المهمة لدمج البيانات عبر المجالات في تحسين جودة التوليد.


وأظهر UniMoMo أيضًا أداءً متفوقًا في مهام توليد الجزيئات الصغيرة. من خلال التقييم على مجموعة بيانات CrossDocked2020،وجد المؤلفون أن UniMoMo تفوقت على الأساليب السائدة الموجودة في التقييم الشامل القائم على CBGBench.
على وجه التحديد، حقق UniMoMo درجات شاملة أعلى من حيث توزيع البنية الفرعية (الأنواع الذرية، والمجموعات الوظيفية، وما إلى ذلك)، ومنطقية الخاصية الكيميائية (QED، وLogP، وSA، وما إلى ذلك)، وجودة البنية الهندسية (توزيع طول الرابطة/الزاوية ومعدل الصراع الذري، وما إلى ذلك)، ودرجة التفاعل (الالتحام Vina) (يرجى الرجوع إلى النص الأصلي للحصول على النتائج التجريبية الكاملة). الأمر المهم هو أن UniMoMo(all)، الذي تم تدريبه عبر أنواع الجزيئات، يُظهر تحسينات كبيرة في جميع أبعاد التقييم مقارنة بإصدار المجال الفردي الذي تم تدريبه فقط على بيانات الجزيئات الصغيرة. وهذا يدل على أنحتى في سيناريو الجزيء الصغير مع البنية الجزيئية الأكثر مرونة والأنواع الأكثر تنوعًا، لا يزال النموذج الموحد قادرًا على نقل القوانين الهندسية وأنماط التفاعل من أنواع جزيئية أخرى، وبالتالي تحسين عقلانية تكوين المونومر وتخطيط المساحة الجيبية النسبية للجزيء الصغير.وتؤكد هذه الظاهرة مرة أخرى المفهوم الأساسي لـ UniMoMo: فالقيود الهندسية وآليات الارتباط بين الجزيئات المختلفة لها أنماط قابلة للمشاركة، ويمكن للنمذجة الموحدة تحفيز هذه الإمكانات بشكل فعال.
من خلال الجمع بين النتائج التجريبية للأنواع الثلاثة من المهام، يظهر UniMoMo مزايا متسقة للغاية: حيث يتفوق النموذج الموحد المدرب باستخدام بيانات الأنواع عبر الجزيئات على نموذج توليد المجال الواحد الحالي في مهامه الخاصة، كما يتمتع بقدرات واضحة محسنة مقارنة بـ UniMoMo المدرب فقط باستخدام بيانات المجال الواحد. تظهر هذه الظاهرة أن المهام المختلفة ظاهريًا في التصميم الجزيئي تتمتع في الواقع بدرجة عالية من التشابه في القيود الفيزيائية والكيميائية الأساسية والقوانين الهندسية المكانية.تلتقط استراتيجية النمذجة الموحدة الخاصة بـ UniMoMo هذه السمات المشتركة وتضخمها، وبالتالي تحقيق نقل المهام المتبادلة والتحسين التكميلي.ولا تؤكد هذه النتائج فعالية UniMoMo فحسب، بل توفر أيضًا دعمًا تجريبيًا قويًا لبناء نظام توليد جزيئي موحد أكثر قوة في المستقبل.
دراسات حالة GPCR

كدراسة حالة، اختار المؤلفون أحد أهم أهداف الأدوية لدى البشر، وهو مستقبل البروتين المقترن (GPCR)، لتقييم قدرة UniMoMo على توليد أنواع مختلفة من الجزيئات (الببتيدات، والأجسام المضادة، والجزيئات الصغيرة) في نفس موقع الارتباط. تظهر الببتيدات والأجسام المضادة والجزيئات الصغيرة التي يولدها UniMoMo توزيعًا جيدًا تحت حقول القوة المستخدمة عادةً لتقييم طاقة الارتباط (Rosetta ΔG، درجة Vina).وما هو أكثر إثارة للدهشة هو أن بنية الجزيء الصغير الناتج تحاكي أيضًا بشكل تلقائي مجموعات وظيفية مماثلة للسلاسل الجانبية للأحماض الأمينية الطبيعية، والتي تستخدم لبناء الروابط الهيدروجينية وتشكيل التفاعلات الرئيسية مع الهدف. بالإضافة إلى ذلك، تستعير الجزيئات الصغيرة أيضًا تكوينات هندسية محلية من الببتيدات والأجسام المضادة، مثل اتصالات الأميد على العمود الفقري الجزيئي، والتي تمكنها من ملء جيوب الارتباط بشكل فعال والتي كانت في الأصل أكثر ملاءمة للجزيئات الكبيرة. تُظهر هذه الحالة بوضوح قدرة UniMoMo على الاقتراض عبر الوسائط والتكيف تلقائيًا مع جيوب الارتباط في المهام الفعلية، وتعكس إمكاناتها لفهم التفاعل بين الأهداف والجزيئات والقيود الهندسية الداخلية للجزيئات على المستوى البنيوي ثلاثي الأبعاد.
استكشاف المستقبل
وعلى الرغم من أن UniMoMo أظهر قدرات قوية على توليد موحد في أنواع ومهام جزيئية متعددة، فقد أشار المؤلفون أيضًا إلى أنه لا يزال هناك العديد من الاحتمالات المستقبلية التي تستحق الاستكشاف في هذا الاتجاه.
يركز العمل الحالي بشكل أساسي على نمذجة الأحماض الأمينية الطبيعية والأجزاء الجزيئية الشائعة، والتي يمكن توسيعها بشكل أكبر لتشمل أشكالًا دوائية أكثر تعقيدًا مثل الأحماض الأمينية غير الطبيعية، والببتيدات/الأجسام المضادة المعدلة، والجزيئات الدورية، وما إلى ذلك، وبالتالي تغطية نطاق أوسع من الفضاء الجزيئي المرشح. ويوفر مفهوم النمذجة الموحدة أيضًا فرصة لدراسة إمكانية التحكم في النموذج وإمكانية تفسيره، ومن المتوقع أن يعزز بشكل أكبر تطوير النماذج التوليدية إلى منصات تصميم جزيئية أكثر موثوقية وعملية. باختصار، لا يوفر تقديم UniMoMo إطارًا توليديًا عامًا وقويًا لمهام التصميم الجزيئي فحسب، بل يفتح أيضًا اتجاهًا جديدًا مليئًا بالإمكانات لاكتشاف الأدوية المعتمد على الذكاء الاصطناعي.