MolXPT: تغليف الجزيئات بالنص للتدريب التوليدي المسبق

أثبتت نماذج التحويل المولدة المدربة مسبقًا (Generative Pre-trained Transformer - GPT) نجاحها الكبير في معالجة اللغة الطبيعية، وقد تم تكييف التقنيات ذات الصلة للاستخدام في نمذجة الجزيئات. بالنظر إلى أن النص هو السجل الأكثر أهمية لاكتشافات العلم، فقد اقترحنا في هذا البحث نموذج MolXPT، وهو نموذج لغوي موحد مدرب مسبقًا على SMILES (تمثيل تتابعي للجزيئات) محاط بالنصوص. بشكل موجز، نحن نكتشف أسماء الجزيئات في كل تسلسل ونستبدلها بـ SMILES المقابلة. بهذه الطريقة، يمكن لـ SMILES الاستفادة من المعلومات الموجودة في النصوص المحيطة والعكس صحيح. يتم إدخال التسلسلات المحاطة أعلاه، والتسلسلات النصية من PubMed، والتسلسلات SMILES من PubChem جميعها في نموذج لغوي للمدربة المسبقة. تظهر النتائج التجريبية أن MolXPT تتفوق على النماذج الأساسية القوية في التنبؤ بخصائص الجزيئات على MoleculeNet، وتقدم أداءً مشابهًا لأفضل نموذج في ترجمة النص-الجزيء باستخدام أقل من نصف عدد معاملاته، وتمكّن من إنشاء جزيئات جديدة دون إعادة التدريب (finetuning).