HyperAIHyperAI
منذ 9 أيام

ChemBERTa-2: نحو النماذج الأساسية الكيميائية

Walid Ahmad, Elana Simon, Seyone Chithrananda, Gabriel Grand, Bharath Ramsundar
ChemBERTa-2: نحو النماذج الأساسية الكيميائية
الملخص

لقد أحدثت النماذج المُدرَّبة مسبقًا الضخمة مثل GPT-3 تأثيرًا هائلاً على معالجة اللغة الطبيعية الحديثة من خلال الاستفادة من التعلم ذاتي التوجيه لتعلم تمثيلات بارزة يمكن استخدامها بسهولة في التدريب الدقيق (fine-tuning) على مجموعة واسعة من المهام اللاحقة. ونستكشف إمكانية نقل هذه التطورات إلى تعلم الآلة الجزيئية من خلال بناء نموذج أساسي كيميائي، يُدعى ChemBERTa-2، باستخدام لغة SMILES. على الرغم من أن البيانات المُعلَّمة للمهام التنبؤية الجزيئية تكون عادة نادرة، إلا أن مكتبات سلاسل SMILES متاحة بسهولة. في هذه الدراسة، نبني على نموذج ChemBERTa من خلال تحسين عملية التدريب المسبق. ونقارن بين التدريب متعدد المهام والتدريب ذاتي التوجيه من خلال تعديل المعامِلات وحجم مجموعة البيانات المستخدمة في التدريب، حتى 77 مليون مركب من قاعدة بيانات PubChem. إلى حد معرفتنا، يُشكّل هذا المجموعة المكونة من 77 مليون مركب واحدة من أكبر المجموعات المستخدمة حتى الآن في التدريب المسبق للجزيئات. ونجد أن التحسينات في التدريب المسبق تجعلنا منافسين للهياكل المتطورة الحالية على مجموعة اختبار MoleculeNet. كما نحلل مدى ترجمة التحسينات في التدريب المسبق إلى تحسينات في الأداء على المهام اللاحقة.

ChemBERTa-2: نحو النماذج الأساسية الكيميائية | أحدث الأوراق البحثية | HyperAI