HyperAIHyperAI

Command Palette

Search for a command to run...

التحسين الكمي المدفوع بالذكاء الاصطناعي: تقترح جامعة كارنيجي ميلون وآخرون AQuaRef، وهو الأول الذي يستخدم قيود ميكانيكا الكم لتحسين نموذج الذرة الكاملة للبروتين.

Featured Image

لفهم الآليات الجزيئية للعمليات الحيوية، نحتاج أولاً إلى رؤية البنية ثلاثية الأبعاد للجزيئات الحيوية الكبيرة.يُعد تحديد الهياكل على المستوى الذري مهمة أساسية في علم الأحياء الهيكلي وأساسًا مهمًا لفهم وظيفة البروتين، والكشف عن آليات التنظيم الجيني، وتطوير الأدوية المستهدفة.سواء كانت تفاعلات محفزة بالبروتين، أو نقل المعلومات الوراثية بواسطة الأحماض النووية، أو التعرف على المستضدات بواسطة الأجسام المضادة، فإن هذه العمليات البيولوجية الرئيسية تعتمد جميعها على نماذج هيكلية دقيقة للتفسير.

تُعدّ المجهرية الإلكترونية المبردة وعلم البلورات بالأشعة السينية حاليًا التقنيات التجريبية الرئيسية لتحديد بنية الجزيئات الحيوية الكبيرة، وقد تراكمت كمية كبيرة من البيانات البنيوية عالية الدقة. وفي السنوات الأخيرة، حققت أساليب التنبؤ الحاسوبية، مثل AlphaFold وRoseTTAFold، تقدمًا ملحوظًا، موفرةً أدوات فعالة لنمذجة البنية. ومع ذلك، لا يزال التحليل التجريبي يؤدي دورًا لا غنى عنه في اكتشاف أنواع البنى غير المعروفة وفهم التفاعلات المعقدة.في عملية تحديد البنية التجريبية، يُعدّ تحسين النموذج الذري خطوة أساسية تقترب من المرحلة النهائية. ويهدف هذا التحسين إلى بناء نموذج جزيئي يتوافق مع قوانين الكيمياء الفراغية ويتطابق مع البيانات التجريبية بأكبر قدر ممكن من الدقة.تعتمد برامج التحسين السائدة الحالية، مثل CCP4 و Phenix، بشكل أساسي على القيود الكيميائية الفراغية في قواعد البيانات القياسية للحفاظ على أطوال الروابط وزوايا الروابط المعقولة وتقليل التضارب بين الذرات.

مع ذلك، لا تزال أنظمة التقييد هذه تعاني من قيود كبيرة. فهي تستهدف في المقام الأول البنى التساهمية، وتفتقر إلى وصف منهجي للتفاعلات غير التساهمية المهمة، مثل الروابط الهيدروجينية وتراص الإلكترونات π. عند الدقة المنخفضة، قد يؤدي ذلك إلى نماذج تنحرف عن الحالة الكيميائية الحقيقية. وعند ظهور روابط جديدة أو وصلات فريدة في البنية، يلزم تحديد المعلمات يدويًا لتحسينها. علاوة على ذلك، قد يُساء تفسير الانحرافات الهندسية المعقولة الناتجة عن البيئات الكيميائية المحلية على أنها شذوذات من قِبل نظام التقييد، ويتم تصحيحها قسرًا. نظريًا،يمكن لميكانيكا الكم أن تصف التفاعلات بين الجزيئات بدقة أكبر، لكن الجزيئات البيولوجية الكبيرة عادة ما تحتوي على آلاف أو حتى عشرات الآلاف من الذرات، مما يجعل الحوسبة الكمومية الكاملة مكلفة للغاية.لذلك، فإن معظم الدراسات الحالية تقتصر على مناطق محلية مثل مواقع ارتباط الليجاند.

ولمعالجة هذه المشكلة، قام فريق بحث مشترك من جامعة كارنيجي ميلون، وجامعة فروتسواف في بولندا، وجامعة فلوريدا، من بين جامعات أخرى،تم اقتراح طريقة تحسين كمي مدفوعة بالذكاء الاصطناعي، AQuaRef.تعتمد هذه الطريقة على التعلم الآلي لنموذج AIMNet2 لوظائف الجهد الذري، وقد تم تخصيصها خصيصًا لمهمة التحسين. وبينما تقترب من الكفاءة الحسابية لحقول القوى الكلاسيكية، فإنها تُحسّن من دقة نتائج حسابات ميكانيكا الكم، مما يوفر مسارًا تقنيًا جديدًا للتحسين الكمي الذري الكامل للجزيئات الحيوية الكبيرة.

تم نشر نتائج البحث ذات الصلة، بعنوان "AQuaRef: تحسين الكم المعجل لهياكل البروتين بواسطة التعلم الآلي"، في مجلة Nature Communications.

أبرز الأبحاث:

* يحقق برنامج AQuaRef، الذي يعتمد على دالة الجهد للتعلم الآلي AIMNet2، تحسينًا كميًا لنموذج ذرة البروتين الكامل لأول مرة.

* في اختبارات أجريت على 61 نموذجًا من نماذج المجهر الإلكتروني بالأشعة السينية منخفضة الدقة والمجهر الإلكتروني المبرد، تفوقت AQuaRef على 57 نموذجًا.

* في حالات الروابط الهيدروجينية القصيرة في بروتينات DJ-1 و YajL، يمكن لـ AQuaRef تحديد مواقع البروتون بما يتوافق مع الأدلة التجريبية دون تدخل بشري.

عنوان الورقة:https://www.nature.com/articles/s41467-025-64313-1
تابع حسابنا الرسمي على WeChat وأجب بكلمة "AQuaRef" في الخلفية للحصول على ملف PDF كامل.

مجموعة بيانات تضم مليون عينة لتدريب الدالة المحتملة في التعلم الآلي للببتيدات.

تهدف هذه الدراسة إلى بناء نموذج معلمي للوظيفة المحتملة لنظام الببتيد باستخدام التعلم الآلي.لذلك، يجب أن يغطي تصميم مجموعة البيانات بشكل منهجي ثلاثة أبعاد: التركيب الكيميائي، والفضاء التوافقي، والتفاعلات بين الجزيئات.

من منظور كيميائي،قام الباحثون بإنشاء قاعدة بيانات صغيرة للببتيدات على شكل سلاسل SMILES، تغطي 20 حمضًا أمينيًا قياسيًا، و11 حالة بروتونية، و3 تعديلات طرفية N، و4 تعديلات طرفية C.انطلاقًا من هذا الأساس، تمّ حصر جميع الببتيدات الأحادية والثنائية، واختيرت عشوائيًا مجموعة فرعية من الببتيدات الثلاثية والرباعية. بالإضافة إلى ذلك، تمّ توليد الببتيدات المرتبطة بروابط ثنائية الكبريتيد ونظائرها المُسيلنة. ولتغطية الفضاء التوافقي بالكامل، استخدم الباحثون برنامج OpenEye Omega لأخذ عينات مكثفة من زوايا الالتواء دون فرض قيود على المراكز الكيرالية، مما مكّن من تطبيق النموذج على أنظمة الببتيدات ذات التكوين الفراغي من النوع D والنوع L والأنظمة المختلطة.

تم بناء مركبات تتكون من 2-4 ببتيدات، وتم تعديل توجيهها المكاني عشوائيًا لمحاكاة التفاعلات بين الجزيئات. لم تعتمد عملية توليد البيانات على التسلسلات الطبيعية أو التراكيب التجريبية لتجنب أي تسريب محتمل للبيانات. وللتحكم في حجم الحساب، تم تحديد العدد الإجمالي للذرات (بما في ذلك الهيدروجين) في جميع الببتيدات ومركباتها بـ 120 ذرة.

بعد الحصول على التكوين الأولياستخدم الباحثون في البداية مجالات القوة GFN-FF لإجراء محاكاة ديناميكيات جزيئية لأخذ عينات من الهياكل غير المتوازنة.يحافظ على التكوين العام قريبًا من المدخلات الأولية عن طريق تقييده بالإحداثيات الديكارتية، مع تحرير زاوية الالتواء ودرجات الحرية بين الجزيئات.

بعد ذلك، طُبقت استراتيجية التعلم النشط القائمة على الاستعلام الجماعي: أولًا، تم اختيار 500,000 عينة أولية عشوائيًا لتدريب نظام مُجمّع يتكون من أربعة نماذج. ثم، أُجريت أربع دورات. في كل دورة، تم اختيار العينات بناءً على عدم اليقين في تنبؤات النماذج للطاقة والقوى الذرية، وأُضيفت هذه البنى ذات عدم اليقين العالي إلى مجموعة التدريب بعد حسابات نظرية الكثافة الوظيفية (DFT). في الدورة الأخيرة، تم تطبيق تحسين مُوجّه بعدم اليقين، مع إعطاء الأولوية للبنى الحدية ذات عدم اليقين العالي في التنبؤ ولكن ذات الطاقة المنخفضة. من خلال هذه العملية، تم الحصول في النهاية على مجموعة تدريب تضم حوالي مليون عينة، بمتوسط 42 ذرة تقريبًا.

إضافةً إلى البيانات المُولَّدة نظريًا، قام الباحثون أيضًا بفحص البنى التجريبية من قواعد بيانات RCSB وEMDB للتحقق من صحة النموذج. وشملت معايير الفحص: نماذج ذات بنية واحدة تحتوي على بروتينات فقط، وعدد يتراوح بين 1000 و10000 ذرة غير هيدروجينية، ودقة تتراوح بين 2.5 و4 أنغستروم، ودرجة تعارض MolProbity أقل من 50، وانحرافات في طول الرابطة وزاوية الرابطة لا تتجاوز أربعة أضعاف القيم القياسية.

AQuaRef: مناهج التحسين الكمي المدفوعة بالذكاء الاصطناعي للأنظمة الجزيئية الكبيرة

يُجري برنامج AQuaRef أولًا فحصًا لسلامة النموذج الذري المُدخل. وفي حال وجود ذرات مفقودة في البنية، يحاول البرنامج استكمالها تلقائيًا. مع ذلك، قد تُؤدي هذه العملية أحيانًا إلى ظهور تعارضات جديدة في الإعاقة الفراغية، خاصةً إذا كان النموذج الأصلي لا يحتوي على ذرات هيدروجين. إذا كانت الذرات المفقودة من العناصر الأساسية في البنية، مثل ذرات السلسلة الرئيسية، فلا يُمكن استكمال عملية التحسين الكمي للنموذج؛ وفي حال الكشف عن تعارضات فراغية كبيرة أو تشوهات هندسية حادة، يتم أولًا إجراء تنظيم هندسي سريع باستخدام القيود الكيميائية الفراغية القياسية للتخلص من المشكلة بأقل قدر من التعديلات على مواقع الذرات.

بالنسبة للبيانات البلورية، يجب أن يأخذ التحسين في الاعتبار أيضًا تناظر وحدة الخلية والتفاعلات الدورية.على وجه التحديد، يقوم البرنامج بتوسيع النموذج إلى خلية فائقة بناءً على عامل تناظر المجموعة الفراغية، ثم يقوم باقتطاعها، مع الاحتفاظ فقط بالنسخ المتناظرة التي تقع المسافة بينها وبين ذرة النسخة الأصلية ضمن نطاق محدد. هذه العملية غير ضرورية عادةً في هياكل المجهر الإلكتروني فائق البرودة.

بعد إتمام عملية إضافة الذرات وتوسيع النموذج، يدخل النظام في عملية التحسين القياسية لحزمة برامج Q|R. يتشابه الهيكل الأساسي لـ AQuaRef بشكل كبير مع نموذج AIMNet2 الأساسي، ولكن تم إجراء العديد من التعديلات الرئيسية لمهمة التحسين الهيكلي.

أولاً، لا يقوم النموذج بحساب تفاعلات كولوم والتشتت بعيدة المدى بشكل صريح، ولكنه يتم تدريبه مباشرة لإعادة إنتاج طاقة DFT-D4 الكلية.يعود ذلك إلى أنه في ظل نموذج المذيب الضمني CPCM، يصعب تقدير تفاعل كولوم بدقة باستخدام الشحنة الذرية فقط، كما أن التفاعل بعيد المدى محجوب بشكل كبير بواسطة الوسط المستمر القابل للاستقطاب. إضافةً إلى ذلك، فإن حدود التشتت بعيدة المدى ذات نصف قطر قطع يزيد عن 5 أنغستروم لا تُسهم إلا قليلاً في القوى الذرية الرئيسية في عملية التحسين، لذا يمكن تجاهلها دون التأثير على الدقة.

ثانيًا، يقدم النموذج مصطلح تنافر أسي قصير المدى صريح من GFN1-XTB، مما يؤدي إلى استقرار أفضل عند التعامل مع الهياكل ذات التعارضات الفراغية المكانية.تم تدريب النموذج باستخدام الطاقة والقوة الذرية والشحنة الذرية الجزئية لهرشفيلد المحسوبة بطريقة B97M-D4/def2-QZVP. بدأ التدريب بتهيئة أوزان عشوائية، وحجم دفعة 256، وإجمالي 1.5 مليون خطوة تدريبية. تم الاحتفاظ بجميع المعلمات الفائقة الأخرى من إعدادات AIMNet2 الأصلية.

فيما يتعلق بالكفاءة الحسابية، كما هو موضح في الشكل أدناه...في إطار عمل AIMNet2، يزداد وقت الحساب للطاقة والقوى الذرية، بالإضافة إلى ذروة استخدام ذاكرة وحدة معالجة الرسومات، بشكل خطي (O(N)) مع عدد الذرات في النظام.بالنسبة لنظام بروتيني يحتوي على ما يقرب من 100000 ذرة، تستغرق حسابات الطاقة والقوة أحادية النقطة حوالي 0.5 ثانية فقط؛ على وحدة معالجة الرسومات NVIDIA H100 واحدة مزودة بذاكرة فيديو سعة 80 جيجابايت، يمكن معالجة نماذج تحتوي على ما يصل إلى حوالي 180000 ذرة.

تم التحقق من صحة البنية المحلية لـ AQuaRef من خلال 41 تحليلًا بالمجهر الإلكتروني المبرد و20 تحليلًا لنموذج الأشعة السينية، وتم تحسينها إلى 2 أنجستروم.

لتقييم أداء AQuaRef،قام الباحثون بإنشاء مجموعة اختبار تضمنت 41 نموذجًا للمجهر الإلكتروني المبرد، و20 نموذجًا منخفض الدقة، و10 نماذج للأشعة السينية عالية الدقة للغاية.جميع النماذج الـ 61 منخفضة الدقة مزودة بهياكل مرجعية متماثلة عالية الدقة. خلال عملية التحسين، تم وضع ثلاثة أنواع من القيود للمقارنة: قيود AIMNet2 الكمومية (أي AQuaRef)، والقيود الهندسية القياسية، وقيود إضافية مثل الروابط الهيدروجينية والهياكل الثانوية بالإضافة إلى القيود القياسية.

وتظهر النتائج في الشكل أدناه.يتفوق النموذج الكمي المحسن منخفض الدقة بشكل كبير على طرق التقييد التقليدية في المقاييس الهندسية مثل درجة MolProbity ودرجة Z لمخطط راماشاندران.في الوقت نفسه، ظل توافق النموذج مع البيانات التجريبية متسقًا إلى حد كبير. بالنسبة لهياكل الأشعة السينية، انخفض التوافق الزائد قليلًا (كان الفرق بين Rwork وRfree أصغر)؛ أما بالنسبة لهياكل المجهر الإلكتروني فائق البرودة، فقد انخفض CCmask انخفاضًا طفيفًا بينما ظلّت قيمة EMRinger ثابتة بشكل أساسي. تشير هذه النتائج، بالإضافة إلى التحسن العام في الجودة الهندسية، إلى احتمال انخفاض التوافق الزائد للنموذج.

على الرغم من أن إضافة قيود هندسية إضافية إلى القيود القياسية قد تُحسّن جودة النموذج، إلا أن برنامج AQuaRef لا يزال يُنتج أشكالًا هندسية أكثر منطقية وأقرب إلى النموذج المرجعي عالي الدقة. في بعض الحالات، قد يصل الفرق الموضعي بين القيود القياسية والبنية المُحسّنة كميًا إلى 2 أنغستروم.

نتائج تحسين 41 نموذجًا للمجهر الإلكتروني فائق البرودة و20 نموذجًا للأشعة السينية

قارنت الدراسة أيضًا برنامج AQuaRef بالعديد من طرق التكرير الشائعة. وتظهر النتائج في الشكل أدناه. تم اختيار برامج AMBER وRosetta وREFMAC5 لبيانات الأشعة السينية، بينما استُخدم برنامج Servalcat لبيانات المجهر الإلكتروني فائق البرودة. إجمالًا،يتميز نموذج AQuaRef بأداء Rfree أفضل قليلاً وبأقل درجة من التجاوز.بالمقارنة مع Servalcat، فإن كلاهما لديه درجات EMRinger متقاربة، لكن Servalcat لديه درجة CCmask أعلى قليلاً.

من حيث الجودة الهندسية،يؤدي برنامج AQuaRef أداءً مشابهاً لبرنامج Rosetta، ولكنه يتفوق بشكل ملحوظ على برنامجي REFMAC5 و Servalcat.يُظهر برنامج Rosetta توافقًا أفضل قليلًا مع النموذج المرجعي، وهو ما قد يعود إلى نصف قطر التقارب الأكبر الناتج عن استراتيجية التحسين غير المعتمدة على التدرج. علاوة على ذلك، يستطيع كل من برنامجي AQuaRef وRosetta توليد أشكال هندسية معقولة للروابط الهيدروجينية، يليهما برنامج AMBER، بينما يعجز برنامجا REFMAC5 وServalcat بشكل أساسي عن استعادة هذه التفاصيل بدقة.

نتائج التحسين لـ 61 نموذجًا منخفض الدقة

في اختبارات أجريت على أنظمة الروابط الهيدروجينية القصيرة، استخدم الباحثون بروتين DJ-1 المرتبط بمرض باركنسون ونظيره YajL كمثالين لدراسة قدرة برنامج AQuaRef على التعامل مع الحالات البروتونية. غالبًا ما تتسبب طرق التحسين التقليدية، المقيدة بالكيمياء الفراغية لقواعد البيانات، في انحراف أطوال الروابط عن قيمها الحقيقية.عند استخدام البنية ثنائية البروتون المتناظرة كنموذج أولي لتحسين AQuaRef، فإن مواضع البروتون الناتجة وهندسة الرابطة تتوافق مع نتائج التحسين غير المقيد.بإضافة القيود التقليدية، تقترب أطوال الروابط من القيم القياسية للجزيئات منزوعة البروتون في قاعدة البيانات. عند تقليص البيانات التجريبية إلى دقة 2 أنغستروم، مما يقلل بشكل كبير من تفاصيل الذرات، لا يزال بإمكان برنامج AQuaRef استعادة بنية مطابقة تقريبًا للبيانات الأصلية بدقة 1.15 أنغستروم، بينما ينحرف تحسين القيود التقليدية أكثر عن التكوين الحقيقي. يحدد برنامج AQuaRef موقع البروتون عند ذرة الأكسجين Oδ2 لبقايا D24 في بروتين DJ-1، وهي نتيجة تدعمها حسابات الطاقة وخرائط كثافة الإلكترون التفاضلية.

تحليل مسافة الرابطة في النوع البري DJ-1

في بروتين YajL، تتوافق نتائج تحسين AQuaRef للرابطتين الهيدروجينيتين القصيرتين E14/D23 مع نتائج التحسين غير المقيد، مما يشير إلى أن البروتون مشترك بين كل من D23 وE14، ويُظهر خصائص نموذجية للرابطة الهيدروجينية ذات الحاجز المنخفض. يختلف هذا عن حالة DJ-1، حيث يقع البروتون بشكل أساسي على ذرة أكسجين واحدة. يُظهر توزيع الطاقة المُقدم بواسطة AIMNet2 سطح طاقة كامنة مسطحًا نسبيًا، مما يعني إمكانية تعديل موضع البروتون بحرية ضمن قيود البيانات التجريبية. في الوقت نفسه، يُظهر مخطط كثافة الإلكترون التفاضلية قممًا أعلى بكثير من 3σ بالقرب من ذرة الهيدروجين، مما يُقدم دليلًا إضافيًا على هذا التفسير البنيوي.

توزيع الطاقة على طول خط الرابطة الهيدروجينية

إنجازات رائدة في التعاون بين الصناعة والأوساط الأكاديمية والبحثية في مجال تحسين الكم البروتيني

في المجالات المتطورة لتحسين الكم البروتيني، وبناء وظائف الجهد باستخدام التعلم الآلي، وتحسين النماذج الذرية، تواصل فرق بحثية متعددة استكشاف هذا الاتجاه، وقد حققت سلسلة من الإنجازات. على سبيل المثال،يمكن لطريقة الشبكة العصبية nn-tm fcc التي طورها فريق جامعة أكسفورد أن تبني نماذج سطح طاقة كامنة عالية الدقة لشظايا البقايا بدقة ميكانيكية كمية شبه كاملة.يتم ضبط متوسط الخطأ التربيعي الجذري لحسابات الطاقة والقوة الذرية ضمن نطاق 1.0 كيلو كالوري/مول و1.3 كيلو كالوري/(مول·أنجستروم) على التوالي. وباستخدام هذه الطريقة، يمكن إتمام حسابات الطاقة والقوة الذرية لـ 15 بروتينًا نموذجيًا في غضون 10 إلى 100 ثانية فقط، أي أسرع بآلاف المرات من حسابات ميكانيكا الكم التقليدية.

عنوان الورقة البحثية: تحسين التنبؤ ببنية البروتين باستخدام إمكانات التعلم العميق
رابط الورقة:https://www.nature.com/articles/s41586-019-1923-7

اقترح فريق تعاوني ألماني آخر خوارزمية الكم BF-DCQO، التي تجمع بين استراتيجية تكرارية غير متغيرة ونظام الحوسبة الكمومية IonQ ion trap.تم تقليل وقت الحساب لمشكلة الطي ثلاثي الأبعاد التي تتضمن 12 حمضًا أمينيًا من 72 ساعة باستخدام مجموعة وحدات معالجة الرسومات التقليدية إلى حوالي 4.3 دقائق.كما بلغت الزيادة في السرعة ألف ضعف.

عنوان الأطروحة: خوارزمية الكم المضادة للتيار الكهربائي الرقمية ذات المجال الانحياز لتحسين النظام الثنائي من الرتبة العليا
رابط الورقة:https://www.nature.com/articles/s42005-025-02270-3

بشكل عام، فإن الجمع بين أساليب ميكانيكا الكم، ووظائف الجهد للتعلم الآلي، والبيانات الهيكلية التجريبية يوفر نهجًا تقنيًا جديدًا لتحسين هياكل الجزيئات الحيوية الكبيرة، ومن المتوقع أن يلعب دورًا أكثر استقرارًا في سيناريوهات مثل النمذجة الهيكلية منخفضة الدقة، وتحليل نمط ربط الليجاند، وبحوث المواقع الوظيفية.