تم اختيار جامعة تسينغهوا/جامعة رينمين لـ ICML 2025، واقترحت جهاز محاكاة الديناميكيات الجزيئية الحيوية الموحد UniSim

اقترحت مجموعة البروفيسور ليو يانغ من جامعة تسينغهوا ومجموعة البروفيسور هوانغ وين بينج من كلية جاولينغ للذكاء الاصطناعي في جامعة رينمين الصينية بشكل مشترك جهاز محاكاة ديناميكيات موحد للوقت الجزيئي الحيوي UniSim.تحصل هذه الطريقة على نموذج تمثيل موحد لجميع الذرات من خلال التدريب المسبق الهجين لإزالة الضوضاء + مجال القوة على كمية كبيرة من بيانات البنية الجزيئية ثلاثية الأبعاد، وتتعلم مجال ناقل النقل للجزيئات في خطوة زمنية طويلة بناءً على إطار توليدي عشوائي، وتقدم نواة موجهة بالقوة للتكيف بسرعة مع البيئات الكيميائية المختلفة. UniSim هي الشركة الأولى التي نجحت في تحقيق إطار عمل موحد لمحاكاة الديناميكيات عبر الأنواع الجزيئية (الجزيئات الصغيرة، الببتيدات، البروتينات) والبيئات الكيميائية.وقد عزز التطبيق العملي للتعلم العميق في مجال المحاكاة الجزيئية.
وقد تم اختيار النتائج ذات الصلة لمؤتمر ICML 2025 تحت عنوان "UniSim: محاكي موحد لديناميكيات الجزيئات الحيوية المتقشرة بمرور الوقت".

عنوان الورقة:
مزيد من أوراق البحث الرائدة في مجال الذكاء الاصطناعي:
https://go.hyper.ai/UuE1o
لماذا نحتاج إلى جهاز محاكاة تقشير زمني موحد؟
ويعتقد الباحثون أنه في مجال محاكاة الديناميكيات الجزيئية، من المعقول والضروري بناء جهاز محاكاة موحد لتقليص الزمن.من ناحية أخرى، يشكل إطار النمذجة الموحد الأساس للمحاكاة التعاونية عبر الأنظمة الجزيئية.على سبيل المثال، عند محاكاة أنظمة معقدة، مثل تفاعلات البروتين مع الربيطة، غالبًا ما تتعايش البروتينات والجزيئات الصغيرة في البيئة الفيزيائية نفسها. إذا كان النموذج ينطبق فقط على نوع معين من الجزيئات، فسيكون من الصعب استعادة سلوك الاقتران بينهما بدقة على المستوى الذري. لذلك، تستطيع المحاكيات ذات قدرات التمثيل الموحد التعامل مع جزيئات متعددة الأنواع في آنٍ واحد ضمن إطار النموذج نفسه، مما يوفر أساسًا متينًا لنمذجة المركبات متعددة الجزيئات.
ومن ناحية أخرى، يساعد النموذج الموحد على دمج البيانات البنيوية والديناميكية لأنواع مختلفة من الجزيئات، وبالتالي تحسين قدرات التعميم والنقل للنموذج.بيانات المسار الجزيئي المتاحة حاليًا نادرة للغاية وموزعة بشكل غير متساوٍ، ولكل نوع من أنواع البيانات، مثل البروتينات والببتيدات والجزيئات الصغيرة، نقاط قوة خاصة به. إذا تمكنت جميعها من المشاركة في التدريب المسبق والتعلم في النموذج نفسه، فسيعزز ذلك بشكل كبير فهم النموذج الشامل للهياكل على المستوى الذري، ويُمكّنه من امتلاك قدرات هجرة أقوى عبر المجالات الجزيئية.
في نفس الوقت،يعد تقديم محاكاة التكسير الزمني أيضًا طريقة أساسية لتحسين كفاءة المحاكاة.تعتمد محاكاة ديناميكيات الجزيئات التقليدية على خطوات زمنية بالغة الصغر (مثل الفيمتوثانية) للتقدم خطوة بخطوة، وهو أمر مكلف حسابيًا ويصعب تغطية السلوكيات طويلة المدى مثل طي البروتين. تتعلم طريقة التكسير الزمني مباشرةً العلاقة بين الحالة الراهنة والحالة المستقبلية. وانطلاقًا من مبدأ الحفاظ على الاتساق الفيزيائي، يمكنها توليد مسارات بسرعة على نطاق زمني أكبر بكثير من حجم الخطوات التقليدية، مما يُحسّن كفاءة المحاكاة بشكل كبير ويُمكّن من إجراء محاكاة طويلة المدى في وقت عملي.

التمثيل الموحد: حل مشكلة توصيف الجزيئات متعددة المقاييس ومتعددة الأنواع
على الرغم من أن نماذج التمثيل الموحدة لجميع الذرات هي حجر الزاوية في عمليات محاكاة الديناميكيات عبر الأنواع الجزيئية،ومع ذلك، فإن تنفيذ مثل هذا النموذج لا يزال يواجه التحديات الفنية التالية:
* أولاً، تتراوح الأنظمة الجزيئية من جزيئات عضوية صغيرة مكونة من عشرات الذرات إلى جزيئات بروتينية كبيرة مكونة من آلاف الذرات، مع اختلافات هائلة في الحجم والهياكل المعقدة والمتنوعة.إذا تم استخدام جميع الذرات للتدريب بشكل مباشر، فسيكون لدى النموذج آليات انتباه مختلفة لأنواع مختلفة من الجزيئات، وبالتالي تثبيط قدرة النموذج على النقل المتبادل.
* ثانياً، إن الأساس لتحقيق تمثيل موحد لجميع الذرات هو استخدام مفردات موحدة على المستوى الذري.أحد الأساليب البديهية هو استخدام الجدول الدوري مباشرةً كمرجع لتضمين التمثيل. إلا أن هذا النهج يتجاهل الوحدات المنتظمة الموجودة بأعداد كبيرة في الببتيدات والبروتينات، مثل البنى الفرعية كالأحماض الأمينية الطبيعية، مما يؤدي إلى ضعف الأداء في بيانات أنواع البروتينات.
* أخيرًا، من أجل التعلم الكامل لتمثيل الجزيئات في حالات مختلفة، سيتم تضمين كمية كبيرة من بيانات البنية الجزيئية ثلاثية الأبعاد في الحالة المستقرة وغير المستقرة في مجموعة بيانات ما قبل التدريب.النموذج الشائع للتدريب المسبق للجزيئات غير المستقرة هو معرفة القوى المؤثرة على الذرات. ومع ذلك، تستخدم مجموعات البيانات المختلفة معلمات مختلفة لحقل القوة عند حساب حقول القوة الذرية، مما يؤدي إلى عدم توافق بيانات الوسوم.
من أجل تحقيق النمذجة الموحدة، تقدم UniSim ثلاث تقنيات رئيسية لحل المشكلات المذكورة أعلاه:
* الرسم البياني الفرعي للتدرج البيئي: موازنة المقياس الجزيئي بشكل معقول
في مرحلة معالجة البيانات المسبقة، سيتم تجزئة بيانات البنية ثلاثية الأبعاد للجزيئات الكبيرة (التي تحتوي على أكثر من 1000 ذرة).دقيقة < رالأعلى أثناء المعالجة المسبقة، سيتم اختيار أي ذرة في الجزيء بشكل عشوائي، وسيتم اعتبار الذرة مركزًا للكرة.دقيقة و رالأعلى اصنع كرة بنصف قطرتعتبر الذرات الموجودة في الكرة الصغيرة بمثابة الرسم البياني الفرعي للتدرج، وتعتبر الذرات الموجودة في الكرة الكبيرة بمثابة الرسم البياني الفرعي للبيئة.بناءً على النظرية الفيزيائية السابقة التي تقول أن القوة بين الذرات تتحلل بشكل كبير مع المسافة، عندما تكون rالأعلى– ردقيقة عند اختياره بشكل صحيح، سيكون التفاعل بين الذرات خارج الرسم البياني الفرعي للبيئة في الجزيء الأصلي والذرات في الرسم البياني الفرعي للتدرج ضئيلاً. لذلك، أثناء التدريب، سيتم استخدام الرسم البياني الفرعي للبيئة بدلاً من الجزيء الأصلي كمدخل، وسيُستخدم الرسم البياني الفرعي للتدرج فقط في حساب دالة الخسارة، مما يُحقق توازناً معقولاً في حجم بيانات البنية الجزيئية ويُحسّن قدرة النموذج على النقل المتبادل.
* امتداد تضمين الذرة: احصل على تمثيل ذري أكثر دقة
تعتمد هذه الدراسة على الجدول الدوري للعناصر.تقديم تمثيلات تضمين منفصلة قابلة للتعلم متعددة لنفس العنصر كمفردات موسعة،يُستخدم هذا النظام لالتقاط البنية التحتية المنتظمة التي تقع فيها الذرات. بالاعتماد على شبكة عصبية بيانية بسيطة، يدمج UniSim معلومات الجوار لكل ذرة، ويحصل على احتمالية كل تمثيل مُضمّن في المفردات الموسعة المقابلة للذرة، ثم يحصل على التمثيل المُضمّن المُمدّد للذرة من خلال الجمع الموزون.يحقق هذا التمثيل التوازن بين الدقة على المستوى الذري والهياكل الفرعية المنتظمة داخل الأنواع الجزيئية المحددة، مما يؤدي إلى تمثيل ذري فعال ومفصل.
* التدريب المسبق الهجين متعدد الرؤوس: التعلم الهجين للبيانات ذات الحالات الجزيئية المختلفة وتوزيعات العلامات
تستخدم UniSim الطريقة التالية لتعلم الهياكل الجزيئية في الحالة المستقرة وغير المستقرة بشكل مشترك: بالنسبة لبيانات الحالة المستقرة، تستخدم المقالة نموذج التدريب المسبق لإزالة الضوضاء لإزالة الضوضاء من البيانات الضوضائية لتعلم التمثيل الذري؛ بالنسبة لبيانات الحالة غير المستقرة، سيتعلم النموذج مباشرة مجال القوة المحافظ، وتتوافق معلمات مجال القوة المختلفة مع رؤوس الإخراج المختلفة، وبالتالي تجنب الأخطاء التي أدخلتها توزيعات العلامات المختلفة.
تستخدم المقالة TorchMD-NET كنموذج أساسي للشبكة العصبية البيانية، والذي يُلبي تباين SO(3). بناءً على تقنيات التدريب المسبق الرئيسية المذكورة أعلاه،تم الانتهاء من التدريب المسبق على البيانات الجزيئية ثلاثية الأبعاد متعددة المصادر على نطاق واسع، وتم تحقيق البناء الفعال لنموذج التمثيل الذري الموحد.
نماذج حقل المتجهات: تعلم انتقالات الحالة طويلة الأمد من المسارات
تقتصر عمليات محاكاة الديناميكيات الجزيئية التقليدية على خطوات تكامل تستغرق بضعة فيمتوثانية، مما يجعل من الصعب أخذ عينات فعالة من السلوكيات طويلة الأمد مثل طي البروتين. يتبنى UniSim إطار عمل استيفاء عشوائي ويربط بين مُدرك متجه هندسي كنموذج حقل متجه بعد نموذج تمثيل الذرات بالكامل المدرب مسبقًا.يحقق النموذج نمذجة ديناميكية شاملة من البداية إلى النهاية من خلال تعلم مجال ناقل النقل بين الحالات الجزيئية في خطوات زمنية طويلة.
أثناء التدريب، تُختار أزواج من التكوينات الجزيئية، مفصولة بفاصل زمني محدد في مسار الديناميكيات الحقيقية، كعينات تدريب، وتُضاف اضطرابات عشوائية إلى مسار الاستيفاء، ويُدرَّس مجال السرعة (السرعة) ومزيل الضوضاء (مزيل الضوضاء) معًا لتوليد المسار في زمن مستمر. مقارنةً بالتكامل العددي التقليدي، يُحسِّن UniSim كفاءة المحاكاة بشكل ملحوظ، ويتجاوز قيود المحاكاة التقليدية في النطاق الزمني.
النوى الموجهة بالقوة: التكيف السريع مع البيئات الكيميائية المعقدة
تتمتع الديناميكيات الجزيئية تحت ظروف مختلفة من المذيبات ودرجة الحرارة والضغط بأسطح طاقة كامنة مختلفة، مما يؤثر بشكل كبير على توزيع التكوينات الناتجة.ولتحقيق هذه الغاية، يقدم UniSim نواة توجيه القوة لتحديد مجال قوة وسيط افتراضي على إطار الفرق العشوائي لتوجيه أخذ العينات المسارية.هذا المجال القوة الوسيطة يعادل مجال قوة MD الحقيقي في كلا طرفي مسار التوليد (أي الحالة الأولية والحالة النهائية)، وهو مصمم ليكون متسقًا للغاية مع المسبقات الفيزيائية، بحيث يكون التكوين الناتج أكثر اتساقًا مع توزيع بولتزمان تحت مجال القوة المستهدفة.
من خلال ملاءمة مجال القوة المتوسطة، لا يحتاج UniSim إلى تعديل معلمات النموذج المدرب مسبقًا ونموذج حقل المتجه.كل ما يلزم هو تعلم نواة توجيه القوة القابلة للتوصيل حتى يتمكن مجال القوة المستهدف من التكيف بكفاءة مع البيئات الكيميائية الجديدة.يعمل على تعزيز قدرات التعميم والهجرة للنموذج بشكل فعال.

التحقق التجريبي: أنواع الجزيئات المتعددة
من أجل التحقق من تنوع UniSim على أنواع جزيئية مختلفة،قام الباحثون بتقييم البيانات بشكل منهجي من أنواع جزيئية متعددة في مهمة محاكاة أمامية، بما في ذلك ثلاثة أنواع من الجزيئات: الجزيئات الصغيرة، والببتيدات، والبروتينات.من خلال المقارنة مع نموذج التعلم العميق في الميدان الذي يقوم أيضًا بمحاكاة ديناميكية مخففة بمرور الوقت، تهدف التجربة إلى استكشاف ما إذا كان التمثيل الذري الموحد يمكن أن يساعد في تحسين فهم النموذج للحالات الجزيئية وقدرات التعميم عبر الوسائط، وكيف يؤثر إشراك النوى الموجهة بالقوة على أداء النموذج في المؤشرات الرئيسية مثل عقلانية التكوينات الناتجة تحت مجال القوة المستهدفة وتشابه التوزيع.
وتظهر النتائج أن UniSim حقق تفوقًا شاملاً في جميع الأنواع الجزيئية.يُظهر أداءً جيدًا في تشابه التوزيع، ويُظهر تحسنًا ملحوظًا في مؤشر عقلانية التكوين الرئيسي (Val-CA). تجدر الإشارة إلى أنه في مهمة توليد المحاكاة الأمامية، يُولّد كل تكوين في المسار عن طريق الانحدار التلقائي، والذي ينطوي على خطأ تراكمي كبير، لذا من الصعب جدًا تحسين عقلانية التكوين.


في مهمة المحاكاة الأمامية للببتيدات والبروتينات،بالمقارنة مع الطرق الحالية مثل FBM وITO وSD، يتفوق UniSim في مؤشرات مثل تشابه التوزيع (TIC-2D)، والعقلانية الهيكلية (VAL-CA)، وخطأ خريطة التلامس (CONTACT). وتحديدًا، بعد إدخال النواة الموجهة بالقوة، حافظ UniSim على مستواه الأصلي في مؤشرات مثل تشابه التوزيع، ولكنه تحسن بشكل ملحوظ في مؤشرات العقلانية التكوينية الرئيسية. في الوقت نفسه، في أنظمة البروتينات المعقدة، يستطيع UniSim تجاوز حواجز الطاقة وتغطية حالات متعددة شبه مستقرة من خلال مئات خطوات المحاكاة الأمامية فقط، مما يفتح آفاقًا جديدة للمحاكاة الفعالة للجزيئات الحيوية الكبيرة.


دراسة حالة ألانين ثنائي الببتيد
وعلاوة على ذلك، لاستكشاف استقرار UniSim في عمليات محاكاة الديناميكيات الجزيئية طويلة الأمد، قام الباحثون بضبط النموذج على نظام ثنائي الببتيد ألانين الكلاسيكي وأجروا عمليات محاكاة طويلة الأمد مكونة من 100000 خطوة.من خلال المقارنة مع نتائج MD، نجح UniSim في إعادة إنتاج 5 حالات مستقرة رئيسية معروفة.تم استعادة مشهد الطاقة الحرة لثنائي ببتيد الألانين في العملية الديناميكية بدقة، مما يؤكد تمامًا استقرار وتناسق النموذج المادي تحت المحاكاة طويلة الأمد.

التوقعات
UniSim هو أول إطار عمل لتحقيق محاكاة ديناميكية موحدة عبر أنواع جزيئية وبيئات كيميائية.يُمهد هذا الطريق لتطبيق التعلم العميق على نطاق واسع في اكتشاف الأدوية وتصميم البروتينات وغيرها من المجالات. كما أشار الباحثون إلى إمكانية استكشاف الاتجاهات التالية مستقبلًا:
* آلية أكثر كفاءة لتحسين التكوين عبر الوسائط لتحسين فعالية العينات المولدة؛
* نمذجة المسار على نطاقات زمنية أطول للكشف عن الآليات البيوفيزيائية المعقدة؛
* استكشاف الآليات الديناميكية في الأنظمة المعقدة، مع التركيز على التفاعلات بين الجزيئات.