SSM-DTA: كسر الحواجز المرتبطة بندرة البيانات في توقع ارتباط الأدوية بالأهداف

يُعد التنبؤ الدقيق بقوة التفاعل بين الدواء والهدف (Drug-Target Affinity - DTA) أمراً بالغ الأهمية في مراحل اكتشاف الأدوية المبكرة، حيث يُسهّل تحديد الأدوية القادرة على التفاعل بكفاءة مع أهداف معينة وتنظيم نشاطاتها. وعلى الرغم من أن التجارب المخبرية (التجريبية) تظل الطريقة الأكثر موثوقية، إلا أنها تستغرق وقتاً طويلاً وتستهلك موارد كبيرة، مما يؤدي إلى نقص في توفر البيانات، ما يشكل تحدياً كبيراً أمام النماذج القائمة على التعلم العميق. وقد ركزت الطرق الحالية بشكل رئيسي على تطوير تقنيات تعتمد على البيانات المتاحة لـ DTA، دون معالجة كافية لمشكلة ندرة البيانات. ولتجاوز هذا التحدي، نقدم إطار العمل SSM-DTA، الذي يدمج ثلاث استراتيجيات بسيطة لكنها فعالة للغاية: (1) منهجية تدريب متعدد المهام تجمع بين تنبؤ DTA ونمذجة اللغة المُغطاة (Masked Language Modeling - MLM) باستخدام بيانات مزدوجة من الأدوية والأهداف. (2) منهجية تدريب شبه مراقبة تستخدم جملة كبيرة من الجزيئات والبروتينات غير المزدوجة لتحسين تمثيلات الدواء والهدف، وهو ما يختلف عن الطرق السابقة التي اقتصرت على استخدام الجزيئات أو البروتينات فقط في مرحلة التدريب المسبق. (3) دمج وحدة انتباه متقاطعة خفيفة الوزن لتحسين التفاعل بين الدواء والهدف، مما يعزز دقة التنبؤ بشكل إضافي. وقد أظهرت تجارب واسعة النطاق على مجموعات بيانات معيارية مثل BindingDB وDAVIS وKIBA أداءً متفوقاً لإطارنا. علاوة على ذلك، أجرينا دراسات حالة على تفاعلات ربط دواء-هدف محددة، وتجارب تصفية افتراضية، وتصورات لسمات الأدوية، وتطبيقات واقعية، جميعها تُظهر القدرة الكبيرة لعملنا. في الختام، يعالج إطار العمل SSM-DTA الذي نقترحه تحدي ندرة البيانات في تنبؤ DTA، ويُظهر نتائج واعدة، مما يفتح الباب أمام عمليات اكتشاف الأدوية الأسرع والأدق. يمكن الوصول إلى الكود الخاص بنا عبر الرابط: $\href{https://github.com/QizhiPei/SSM-DTA}{Github}$