HyperAIHyperAI

Command Palette

Search for a command to run...

MolXPT: تغليف الجزيئات بالنص للتدريب التوليدي المسبق

Zequn Liu Wei Zhang Yingce Xia Lijun Wu Shufang Xie Tao Qin Ming Zhang Tie-Yan Liu

الملخص

أثبتت نماذج التحويل المولدة المدربة مسبقًا (Generative Pre-trained Transformer - GPT) نجاحها الكبير في معالجة اللغة الطبيعية، وقد تم تكييف التقنيات ذات الصلة للاستخدام في نمذجة الجزيئات. بالنظر إلى أن النص هو السجل الأكثر أهمية لاكتشافات العلم، فقد اقترحنا في هذا البحث نموذج MolXPT، وهو نموذج لغوي موحد مدرب مسبقًا على SMILES (تمثيل تتابعي للجزيئات) محاط بالنصوص. بشكل موجز، نحن نكتشف أسماء الجزيئات في كل تسلسل ونستبدلها بـ SMILES المقابلة. بهذه الطريقة، يمكن لـ SMILES الاستفادة من المعلومات الموجودة في النصوص المحيطة والعكس صحيح. يتم إدخال التسلسلات المحاطة أعلاه، والتسلسلات النصية من PubMed، والتسلسلات SMILES من PubChem جميعها في نموذج لغوي للمدربة المسبقة. تظهر النتائج التجريبية أن MolXPT تتفوق على النماذج الأساسية القوية في التنبؤ بخصائص الجزيئات على MoleculeNet، وتقدم أداءً مشابهًا لأفضل نموذج في ترجمة النص-الجزيء باستخدام أقل من نصف عدد معاملاته، وتمكّن من إنشاء جزيئات جديدة دون إعادة التدريب (finetuning).


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp