HyperAIHyperAI
منذ 11 أيام

Mol-LLM: نموذج لغوي عالمي متعدد الوسائط جزيئي مُحسَّن في استخدام الرسوم البيانية

Chanhui Lee, Hanbum Ko, Yuheon Song, YongJun Jeong, Rodrigo Hormazabal, Sehui Han, Kyunghoon Bae, Sungbin Lim, Sungwoong Kim
Mol-LLM: نموذج لغوي عالمي متعدد الوسائط جزيئي مُحسَّن في استخدام الرسوم البيانية
الملخص

أدى التقدم الأخير في النماذج اللغوية الكبيرة (LLMs) إلى ظهور نماذج قادرة على معالجة مهام جزيئية متنوعة، مثل توقع التفاعلات الكيميائية وتوقع خصائص الجزيئات. وقد مكّنت مجموعات بيانات التدريب الكبيرة النموذجية على الجزيئات من تطوير نماذج عامة تعتمد فقط على التسلسل (مثل SMILES أو SELFIES)، ويسعى الباحثون الآن إلى استكشاف النماذج متعددة الوسائط التي تدمج معلومات البنية الجزيئية لتحقيق تحسينات إضافية. ومع ذلك، لم تُدرَس بعد نموذج لغوي كلي متعدد الوسائط وعام يغطي طيفًا واسعًا من المهام الجزيئية بشكل كامل. لاحظنا أن التدريب البسيط على التنبؤ بالرمز التالي يتجاهل معلومات البنية البيانية، مما يحد من قدرة النموذج اللغوي الكبير على استغلال الرسوم البيانية الجزيئية. ولحل هذه المشكلة، نقترح (أ) تحسين تفضيل البنية الجزيئية (MolPO)، الذي يعزز استخدام البنية من خلال تحسين التفضيلات بين أزواج من الهياكل الجزيئية الصحيحة والمضروبة، و(ب) مُشفِّر رسوم بيانية متقدم مع استراتيجية تدريب مُسبق مخصصة لتحسين فعالية استخدام البنية بواسطة MolPO. بناءً على هذه المساهمات، نقدم Mol-LLM، أول نموذج متعدد الوسائط عام يُحقق (أ) معالجة طيف واسع من المهام الجزيئية ضمن النماذج اللغوية الجزيئية، (ب) الاستفادة الصريحة من معلومات البنية الجزيئية، و(ج) الاستفادة من التدريب الواسع على التعليمات. وتحقيق Mol-LLM نتائج رائدة أو مماثلة في أشمل معايير النماذج اللغوية الجزيئية، حتى في مجموعات بيانات خارج التوزيع لتنبؤ التفاعلات والخصائص، حيث يتفوق على النماذج السابقة من النماذج العامة الجزيئية بشكل كبير.

Mol-LLM: نموذج لغوي عالمي متعدد الوسائط جزيئي مُحسَّن في استخدام الرسوم البيانية | أحدث الأوراق البحثية | HyperAI