Chemformer: محول مُدرَّب مسبقًا للكيمياء الحاسوبية
أثبتت النماذج القائمة على المُحَوِّل (Transformer) المزدوجة مع نظام إدخال بسيط للخط الجزيئي (SMILES) مؤخرًا قدرتها الكبيرة على التغلب على التحديات في مجال الكيمياء المعلوماتية. ومع ذلك، فإن هذه النماذج غالبًا ما تُطوَّر خصيصًا لتطبيق واحد فقط، وتحتاج إلى موارد كبيرة لتدريبها. في هذه الدراسة، نقدم نموذج Chemformer – وهو نموذج مبني على المُحَوِّل يمكن تطبيقه بسرعة على مهام تسلسل إلى تسلسل (sequence-to-sequence) وكذلك المهام التمييزية في الكيمياء المعلوماتية. علاوةً على ذلك، نُظهر أن التدريب الذاتي (self-supervised pre-training) يمكن أن يُحسّن الأداء بشكل ملحوظ ويُسرّع بشكل كبير من عملية التقارب في المهام اللاحقة. وحققنا نتائج متميزة على أحدث المعايير في مجموعتي بيانات التنبؤ بالتركيب المباشر والتركيب العكسي من حيث دقة القيمة الأولى (top-1 accuracy). كما تحسّن النموذج على الطرق الحالية في مهمة تحسين الجزيئات، ونُظهر أن Chemformer قادر على تحسين الأداء في عدة مهام تمييزية في آنٍ واحد. وسيتم إتاحة النماذج والبيانات والكود بعد النشر.