HyperAIHyperAI
منذ 9 أيام

SELFormer: تعلم تمثيل الجزيئات من خلال نماذج لغة SELFIES

Atakan Yüksel, Erva Ulusoy, Atabey Ünlü, Tunca Doğan
SELFormer: تعلم تمثيل الجزيئات من خلال نماذج لغة SELFIES
الملخص

التحليل الحسابي الآلي للفضاء الكيميائي الواسع أمر بالغ الأهمية لعدة مجالات بحثية، مثل اكتشاف الأدوية وعلوم المواد. وقد تم مؤخرًا استخدام تقنيات تعلم التمثيل (Representation Learning) بهدف رئيسي هو إنشاء تمثيلات عددية موجزة وغنية بالمعلومات للبيانات المعقدة. إحدى الطرق الفعالة لتعلم تمثيلات جزيئية هي معالجة الترميزات القائمة على السلاسل النصية للمركبات الكيميائية باستخدام خوارزميات معالجة اللغة الطبيعية (NLP). ومعظم الطرق المقترحة حتى الآن تعتمد على ترميز SMILES لهذا الغرض؛ ومع ذلك، فإن SMILES مرتبط بعدة مشكلات تتعلق بالصحة والمتانة، والتي قد تعيق نموذج التعلم عن اكتشاف المعرفة المختبئة في البيانات. في هذه الدراسة، نقترح SELFormer، وهو نموذج لغوي كيميائي مبني على معمارية Transformer، يستخدم ترميزًا صالحًا بنسبة 100٪، وموجزًا وغنيًا بالمعنى، يُعرف بـ SELFIES كمدخل، بهدف تعلم تمثيلات جزيئية مرنة وعالية الجودة. تم تدريب SELFormer مسبقًا على مليوني مركب يشبه الأدوية، ثم تم تحسينه دقيقًا لمهام تنبؤ خصائص جزيئية متنوعة. وقد أظهر تقييم الأداء أن SELFormer يتفوق على جميع الطرق المنافسة، بما في ذلك النماذج القائمة على التعلم الرسومي والنموذج الكيميائي القائم على SMILES، في تنبؤ ذوبانية الجزيئات في الماء وتفاعلات الأدوية الضارة. كما قمنا بتمثيل التمثيلات الجزيئية التي تعلّمها SELFormer باستخدام تقنيات تقليل الأبعاد، مما أظهر أن النموذج المُدرّب مسبقًا قادر بالفعل على التمييز بين الجزيئات ذات الخصائص الهيكلية المختلفة. وقد شاركنا SELFormer كأداة برمجية، إلى جانب مجموعات البيانات والنماذج المُدرّبة مسبقًا. بشكل عام، تُظهر أبحاثنا فائدة استخدام ترميز SELFIES في سياق نمذجة اللغة الكيميائية، وتفتح آفاقًا جديدة لتصميم واكتشاف مرشحات أدوية جديدة ذات خصائص مطلوبة.

SELFormer: تعلم تمثيل الجزيئات من خلال نماذج لغة SELFIES | أحدث الأوراق البحثية | HyperAI