جامعة شاندونغ تطور خوارزمية التعلم العميق القابلة للتفسير RetroExplainer لتحديد المسار الرجعي للمركبات العضوية في 4 خطوات

تهدف عملية التخليق الرجعي إلى العثور على سلسلة من المتفاعلات المناسبة لتخليق المنتج المستهدف بكفاءة. وهذه طريقة مهمة لحل طرق التخليق العضوي، وهي أيضًا الطريقة الأكثر بساطة وأساسية لتصميم طرق التخليق العضوي.
اعتمدت الأبحاث المبكرة في مجال التصنيع الرجعي بشكل أساسي على البرمجة، ولكن الذكاء الاصطناعي تولى هذا العمل فيما بعد. ومع ذلك، فإن طرق التخليق الرجعي الحالية تركز في الغالب على التخليق الرجعي بخطوة واحدة، ولديها قدرة ضعيفة على التفسير، ولا يمكنها أن تأخذ في الاعتبار كل من المعلومات قصيرة المدى وطويلة المدى للجزيئات، مما يؤدي إلى أداء محدود.
ولتحقيق هذه الغاية، قام وي ليي من جامعة شاندونغ ومجموعة البحث التابعة لزو كوان من جامعة العلوم والتكنولوجيا الإلكترونية في الصين بتطوير RetroExplainer بشكل مشترك. يمكن لخوارزمية التعلم العميق القابلة للتفسير هذه تحديد الطرق الرجعية للمركبات العضوية في 4 خطوات وتوفير المتفاعلات المتاحة بسهولة. ومن المتوقع أن يوفر RetroExplainer أداة قوية للبحث الرجعي في الكيمياء العضوية.
المؤلف | شيويه تساي
المحرر | سانيانغ
تهدف عملية التخليق الرجعي في الكيمياء العضوية إلى العثور على سلسلة من المتفاعلات المناسبة لتخليق المنتج المستهدف بكفاءة.. تعتبر هذه العملية عملاً أساسياً لا غنى عنه في التركيب بمساعدة الكمبيوتر.

الشكل 1: الطريق الرجعي للكحول الثلاثي البيوتيل
في الستينيات،كوري وآخرون حاول إجراء تحليل رجعي اصطناعي عبر البرمجة، وقام بتطوير برنامج محاكاة التركيب الكيميائي العضوي (OCSS). لكن،مع زيادة كمية البيانات، يتم الاستيلاء على هذا العمل بسرعة بواسطة الذكاء الاصطناعي. ومن بينها نموذج التعلم العميق الذي كان متوقعًا للغاية وأنتج نتائج كبيرة.
في أبحاث الذكاء الاصطناعي المبكرة، كان الباحثون يعملون غالبًا بشكل عكسي من المنتجات إلى المتفاعلات استنادًا إلى قوالب التفاعل، أي التخليق الرجعي القائم على القالب.. ومن بينها، غالبًا ما يتم استخدام البصمات الجزيئية المستندة إلى المدركات متعددة الطبقات لتشفير المنتج واختيار القالب.
ثم،بدأ الباحثون في استكشاف طرق التوليف الخالية من القوالب وشبه القوالب، بما في ذلك بشكل رئيسي:
1. التخليق الرجعي القائم على التسلسل؛
2. التوليف الرجعي المبني على الرسم التخطيطي.
الفرق الرئيسي بينهما يكمن في الشكل الذي يتم التعبير به عن الجزيئات. يستخدم الأول سلاسل خطية لتمثيل الجزيئات، مثل مواصفات SMILES؛ في حين يستخدم الأخير نماذج الرسم البياني الجزيئي لتمثيل الجزيئات، بما في ذلك بشكل أساسي التنبؤ بمراكز التفاعل (RC) واستكمال التركيبات التركيبية.

الشكل 2: تعبيرات SMILES لبعض المواد
على الرغم من أن الطرق الرجعية التركيبية الحالية قد حققت تقدمًا كبيرًا،ومع ذلك، لا تزال هناك ثلاث مشاكل داخلية:
1.تتجاهل عملية التخليق الرجعي القائمة على التسلسل المعلومات الجزيئية، بينما تتجاهل عملية التخليق الرجعي القائمة على الرسم البياني معلومات التسلسل والميزات طويلة المدى للجزيئات. كلتا الطريقتين محدودة في تعلم الميزات ومن الصعب تحسين الأداء؛
2.طرق التجميع الرجعي القائمة على التعلم العميق لها قابلية تفسير ضعيفة. على الرغم من أن عملية التجميع الرجعي القائمة على القالب يمكن أن توفر مسارًا تركيبيًا مفهومًا، إلا أن آلية اتخاذ القرار الخاصة بالخوارزمية لا تزال غامضة، ويجب مراعاة إمكانية إعادة إنتاج النموذج وقابليته للتطبيق؛
3.تركز الطرق الحالية في الغالب على التخليق الرجعي بخطوة واحدة. يبدو أن هذا النهج يعطي متفاعلات معقولة، إلا أن هذه المتفاعلات قد يكون من الصعب شراؤها أو قد تتطلب معالجة معقدة. لذلك، قد تكون عملية التخليق الرجعي متعددة الخطوات أكثر أهمية في التخليق الكيميائي الفعلي.
تحقيقا لهذه الغاية،قام وي ليي من جامعة شاندونغ ومجموعة البحث التابعة لزو كوان من جامعة العلوم والتكنولوجيا الإلكترونية في الصين بتطوير RetroExplainer بشكل مشترك . يمكن لهذه الخوارزمية إجراء تنبؤات رجعية تعتمد على التعلم العميق مع مراعاة إمكانية تفسير الخوارزمية وإمكانية تنفيذها. يتفوق RetroExplainer على الخوارزميات الأخرى في ما يقرب من 12 مجموعة بيانات مرجعية، وتم التحقق من 86.91% من التفاعلات في طرق التخليق المقترحة لـ TP3T من خلال الأدبيات. وقد نشرت هذه النتيجة في مجلة Nature Communications.

وقد نشرت هذه النتيجة في مجلة Nature Communications.
رابط الورقة:
https://www.nature.com/articles/s41467-023-41698-5
اتبع الحساب الرسمي ورد "retrosynthesis" للحصول على الورقة الكاملة بصيغة PDF
الإجراءات التجريبية
بناء الخوارزمية:الوحدة + الشبكة الفرعية
تتضمن عملية التحليل الرجعي بالكامل أربع خطوات: الترميز الرسومي الجزيئي، والتعلم متعدد المهام، واتخاذ القرار، والتنبؤ بمسار التركيب متعدد الخطوات.
يتكون RetroExplainer بشكل أساسي من أربع وحدات: محول الرسوم البيانية متعدد المقاييس متعدد الحواس (MSMS-GT)، والتعلم الديناميكي التكيفي متعدد المهام (DAMT)، ووحدة القرار القابلة للتفسير، ووحدة التنبؤ بالمسار.

الشكل 3: مخطط تخطيطي لبرنامج RetroExplainer ووحداته
أ: مخطط عملية RetroExplainer؛
ب: هندسة MSMS-GT؛
ج: مخطط تخطيطي لخوارزمية DAMT؛
د: عملية اتخاذ القرار مشابهة لآلية رد الفعل.
يقوم MSMS-GT بالتقاط معلومات كيميائية مهمة من خلال تضمين الروابط الكيميائية والتضمين الطوبولوجي للذرات. يتم دمج المعلومات المشفرة في متجهات جزيئية من خلال آلية الاهتمام متعدد الرؤوس.
في وحدة DAMT، يتم إدخال المعلومات الجزيئية في وقت واحد في الشبكات الفرعية للتنبؤ بمركز التفاعل (RCP)، ومطابقة المجموعة المغادرة (LGM)، والاتصال بمجموعة المغادرة (LGC).
يقوم RCP بتحديد التغييرات في الروابط الكيميائية وعدد ذرات الهيدروجين المجاورة للذرات، ويقوم LGM بمطابقة المجموعة المغادرة في المنتج مع تلك الموجودة في قاعدة البيانات، ويقوم LGC بربط المجموعة المغادرة ببقايا المنتج.
تقوم وحدة القرار بتحويل المنتجات إلى متفاعلات بناءً على الإجراءات الرجعية الخمسة ودرجة الطاقة (E) لمنحنى القرار، وتحاكي عملية التجميع الجزيئي بشكل عكسي.
أخيرًا، يتم استخدام خوارزمية بحث شجرة استدلالية للعثور على طريق فعال لتوليف المنتج مع ضمان توفر المتفاعلات.
مقارنة الأداء:مجموعة بيانات معيارية لمكتب براءات الاختراع والعلامات التجارية الأمريكي
ولإثبات أداء RetroExplainer، قارنه الباحثون بـ 21 خوارزمية أخرى للتخليق الرجعي تعتمد على التفاعلات الكيميائية المدرجة في مكتب براءات الاختراع والعلامات التجارية في الولايات المتحدة (USPTO)، وكان مؤشر التقييم هو دقة top-k.

الجدول 1: مقارنة أداء RetroExplainer والخوارزميات الأخرى (USPTO-50K)
يمكن ملاحظة أنه بناءً على مجموعة بيانات USPTO-50K، من بين مؤشرات التقييم الثمانية،يتفوق RetroExplainer على الخوارزميات الأخرى في 5 جوانب ويحتل المرتبة الأولى في متوسط الدقة. على الرغم من أن RetroExplainer أقل من LocalRetro في دقة العشرة الأوائل، إلا أن الفجوة بينهما هي 1% فقط.
ولتجنب تأثير الجزيئات المتشابهة، قام الباحثون بإعادة تقسيم البيانات باستخدام تشابه Tanimoto وقارنوها بالخوارزميتين الأكثر دقة، R-SMILE وLocalRetro.

الشكل 4: مقارنة أداء RetroExplainer وR-SMILES وLocalRetro على مجموعات بيانات مختلفة
كما يمكن ملاحظة من النتائج، فإن أداء RetroExplainer أفضل في معظم مجموعات البيانات، مما يعكس استقراره وقدرته على التكيف.
ثم قام الباحثون بمقارنة أداء الخوارزمية على مجموعات البيانات الأكبر حجمًا USPTO-MIT وUSPTO-FULL. يتفوق RetroExplainer على الخوارزميات الأخرى في كافة المؤشرات، والفجوة مع الخوارزميات الأخرى أكبر.يوضح هذا أن RetroExplainer يتمتع بإمكانات أكبر في تحليل البيانات واسعة النطاق.

الجدول 2: مقارنة أداء RetroExplainer والخوارزميات الأخرى (USPTO-MIT وUSPTO-FULL)
قابلية التفسير:تصور القرار
باستخدام تفاعل الاستبدال النووي ثنائي الجزيء (SN2)، صمم الباحثون عملية تنبؤ رجعي اصطناعي قابلة للتفسير تعتمد على التجميع الجزيئي الموجه بالتعلم العميق. تتضمن عملية اتخاذ القرار ست مراحل: المنتج الأصلي (P)، ومطابقة المجموعة المغادرة (S-LGM)، والتهيئة (IT)، واتصال المجموعة المغادرة (S-LGC)، وتغير الرابطة الكيميائية في مركز التفاعل (S-RCP)، وتغير عدد ذرات الهيدروجين (HC).
بناءً على مساهمة كل مرحلة في القرار النهائي، تقوم الشبكة الفرعية DAMT بإنشاء درجة طاقة (E) لكل مرحلة.
وتتمثل العملية المحددة فيما يلي:
1. في المرحلة P، يتم تهيئة E لكل مرحلة إلى 0؛
2. في مرحلة S-LGM، يتم اختيار المجموعة المغادرة بناءً على الاحتمالية المتوقعة لوحدة LGM؛
3. أضف E للمجموعة المغادرة المحددة في مرحلة S-LGM إلى احتمالية حدث الاستجابة التي تنبأت بها وحدتا RCP وLGM للحصول على طاقة مرحلة IT؛
4. في مرحلتي S-LGC وS-RCP، يتم توسيع جميع العقد الممكنة في شجرة البحث استنادًا إلى خوارزمية البرمجة الديناميكية. حدد الأحداث ذات الاحتمالية الأكبر من الحد المحدد مسبقًا وحافظ على E ثابتة؛
5. اضبط عدد ذرات الهيدروجين والشحنة الرسمية لكل ذرة للتأكد من أن الرسم التخطيطي الجزيئي الناتج يتوافق مع قواعد التكافؤ واحسب E النهائي.

الشكل 5: عملية اتخاذ القرار في RetroExplainer
أ: مسار البحث في RetroExplainer لنتائج التنبؤ؛
ب: منحنيات القرار لأفضل 12 طريقًا متوقعًا؛
ج: 6 عمليات تغيير هيكلي تمثل الطرق الاصطناعية.
من خلال رسم منحنى القرار بناءً على تغيير E، يمكننا تحليل عملية اتخاذ القرار في RetroExplainer ومعرفة أخطاء التنبؤ في RetroExplainer.
كما هو موضح في الشكل، فإن الطريق الاصطناعي الصحيح للمنتج يجب أن يكون تفاعل إزالة الحماية للأمين، لكن RetroExplainer يصنفه في المرتبة السادسة، والأول هو تفاعل اقتران CN. ووجد التحليل أن RetroExplainer يميل إلى زيادة عدد ذرات الهيدروجين في الأمينات في مرحلة HC، مما أدى إلى هذا الاختلاف.يشير هذا إلى أن RetroExplainer قد يرتكب نفس الخطأ في الحكم على الجزيئات ذات الهياكل المماثلة في مرحلة HC.
من خلال مقارنة ردود أفعال RetroExplainer المصنفة في المركز الأول والثاني،وجد الباحثون أن E قد يكون مرتبطًا بصعوبة الاستجابة. على الرغم من أن اتصال I:33 و C:26 في التفاعل 1 لا يساعد على تقليل الطاقة، فإن اتصال ذرة الهيدروجين عند C:26 يتطلب 13 ضعف طاقة التفاعل السابق. وفي الوقت نفسه، أدى إدخال I:33 إلى إضعاف مشكلة الانتقائية التي تواجه تفاعل اقتران CN.
في نفس الوقت،يمكن أن يؤثر العائق الفراغي أيضًا على نتائج التنبؤ الخاصة بـ RetroExplainer. عند مقارنة التفاعلات المصنفة في المرتبة الرابعة والحادية والعشرين، فإن بنيتها الجزيئية متماثلة، ولكن المجموعات المغادرة مرتبطة بالـ N المتماثل، مما يؤدي إلى اختلافات في E.
تخطيط المسار:طرق اصطناعية متوقعة متعددة الخطوات
ولتحسين جدوى تنبؤات RetroExplainer، قام الباحثون بدمجها مع خوارزمية Retro، واستبدال تنبؤات الخطوة الواحدة في الأخيرة بتنبؤات متعددة الخطوات.
وباستخدام موسع الشعب الهوائية Protokylol كمثال، صممت RetroExplainer مسارًا صناعيًا مكونًا من 4 خطوات لهذا المنتج. ثم أجرى الباحثون مراجعة للأدبيات حول هذه التفاعلات المكونة من أربع خطوات لاستكشاف مدى جدواها.

الشكل 6: تركيب RetroExplainer المكون من 4 خطوات للبروتوسان
النص الأزرق في الشكل هو استجابة مماثلة مسجلة في المرجع، والجزء الأحمر هو عملية اتخاذ القرار في RetroExplainer.
على الرغم من أن العديد من التفاعلات لم تجد نفس المرجع تمامًا، إلا أنها وجدت تفاعلات عالية العائد مماثلة. أيضًا،قام RetroExplainer بتصميم 176 تجربة لـ 101 حالة، ومن بينها 153 حالة تمكنت من العثور على ردود فعل مماثلة في SciFinder.
تظهر النتائج أعلاه أن تنبؤ RetroExplainer بالتركيب الرجعي أفضل من الخوارزميات الحالية الأخرى. في الوقت نفسه، تكون قرارات RetroExplainer شفافة وقابلة للتفسير، كما أنها تقوم بالتخطيط متعدد الخطوات للاستجابات، مما يجعلها أكثر جدوى. ومن المتوقع أن يوفر RetroExplainer أداة قوية للبحث الرجعي في الكيمياء العضوية.
الأداء مقابل القدرة على التفسير، تناقض الذكاء الاصطناعي
القدرة على التفسير هي عامل رئيسي في تطبيق الذكاء الاصطناعي في سيناريوهات مختلفة. مع التطور المستمر للذكاء الاصطناعي في الصناعات مثل القيادة الذاتية والتشخيص الطبي والتمويل والتأمين، أصبحت عملية صنع القرار في مجال الذكاء الاصطناعي ذات أهمية متزايدة وتواجه المزيد والمزيد من القضايا العملية والاجتماعية وحتى القانونية.
وفي الوقت نفسه، يمكن أن تساعد القدرة على التوضيح المستخدمين على فهم الذكاء الاصطناعي وصيانته واستخدامه، واكتشاف وفهم المفاهيم الجديدة في مجالات تطبيق الذكاء الاصطناعي. كما أن القدرة على التفسير توضح أيضًا جدوى النتائج وتخبر المستخدمين أي قرار سيحقق أكبر فائدة.

الشكل 7: مرحلة الشرح في عملية حل المشكلة
لكن،أداء النموذج وقابلية تفسيره يمثلان مشكلة كبيرة بالنسبة لـ ScienceAIإذا كان النموذج يتمتع بأداء جيد ومتانة جيدة لمجموعة الاختبارات المتقاطعة، فقد تعمل الميزات العميقة عالية الأبعاد بشكل أفضل، ولكنها لا تحمل أي معنى مادي، وهو ما نسميه غالبًا "إن قابلية تفسير البحث العلمي ضعيفة بشكل عام".
على العكس من ذلك، إذا تم استخدام ميزات موضحة جيدًا، على الرغم من إمكانية تفسيرها بشكل كبير من الناحية المادية، فإن أداء النموذج الفعلي سيكون معتمدًا بشكل كبير على البيانات، وسوف ينخفض أداء النموذج إذا تم تغيير مجموعة البيانات.
ولا توجد حتى الآن طريقة جيدة لتوحيد التناقض بين الاثنين، ولكن في هذه الدراسة، قام الباحثون بتصور عملية اتخاذ القرار للذكاء الاصطناعي خطوة بخطوة.، مما يسمح للمستخدمين بفهم تغييرات النتيجة لنتائج التنبؤ المختلفة في كل مرحلة بشكل واضح، وفهم عملية صنع القرار للذكاء الاصطناعي، وتسهيل عملية تحسين النموذج للمطورين.
مع التطور المستمر للذكاء الاصطناعي القابل للتفسير، سيصبح فهم الناس للذكاء الاصطناعي أعمق، وستصبح عملية اتخاذ القرار في الذكاء الاصطناعي أسهل للفهم.في المستقبل، سيستمر التفاعل بين البشر والآلات في التزايد، وسيتم خفض عتبة التفاعل بشكل أكبر، وسيتم استخدام الذكاء الاصطناعي في المزيد من السيناريوهات، مما يجعل الحياة أكثر ملاءمة وذكاءً.
روابط مرجعية:
[1]http://www.chem.ucla.edu/~harding/IGOC/R/retrosynthesis.html
[2] https://zh.wikipedia.org/zh-cn/مواصفات المدخلات الخطية الجزيئية المبسطة
[3] https://wires.onlinelibrary.wiley.com/doi/10.1002/widm.1391