SemiRetro: إطار عمل شبه-نمطي يعزز التنبؤ بالتركيب العكسي العميق

في الآونة الأخيرة، أظهرت طرق تعلم رسمية الجزيئات القائمة على النموذج (TB) والطرق القائمة دون نموذج (TF) نتائج واعدة في مجال التحليل العكسي للجزيئات (retrosynthesis). تتميز الطرق القائمة على النموذج (TB) بدقة أعلى من خلال استخدام نماذج تفاعل مُشفَّرة مسبقًا، بينما تتميز الطرق دون نموذج (TF) بقابلية التوسع الأكبر من خلال تجزئة عملية التحليل العكسي إلى مشكلتين فرعيتين: تحديد المركز (center identification) وتكملة المكونات المُستخرَجة (synthon completion). ولدمج المزايا المتنافرة بين النوعين، نقترح تقسيم النموذج الكامل إلى عدة نماذج شبه كاملة (semi-templates)، ودمجها في إطار عمل ثنائي الخطوات الخاص بالطرق دون نموذج (TF). وبما أن العديد من هذه النماذج الشبه كاملة تتكرر، يمكن تقليل التكرار النموذجي (template redundancy) مع الحفاظ على المعرفة الكيميائية الأساسية لتسهيل إكمال المكونات المُستخرَجة. نسمي طريقتنا "SemiRetro"، ونُقدّم طبقة جديدة لشبكة الشبكة العصبية الرسومية (GNN) تُسمى DRGAT لتعزيز دقة تحديد المركز، ونُقدّم وحدة تصحيح ذاتي جديدة لتحسين تصنيف النماذج الشبه كاملة. أظهرت النتائج التجريبية أن SemiRetro تتفوق بشكل ملحوظ على الطرق القائمة على النموذج (TB) والطرق دون نموذج (TF) الحالية. من حيث القابلية للتوسع، تغطي SemiRetro 98.9% من البيانات باستخدام 150 نموذجًا شبهًا فقط، بينما كانت الطرق القائمة على النموذج السابقة مثل GLN تتطلب 11,647 نموذجًا لتغطية 93.3% من البيانات. من حيث الدقة في التصنيف الأول (top-1)، تفوقت SemiRetro على الطريقة دون نموذج G2G بنسبة 4.8% (في الفئة المعروفة) و5.0% (في الفئة غير المعروفة). بالإضافة إلى ذلك، تتميز SemiRetro بكفاءة تدريب أفضل مقارنة بالطرق الحالية.