Command Palette
Search for a command to run...
تمكين اكتشاف الجزيئات لترجمة التسميات الجزيئية باستخدام نماذج اللغة الكبيرة: رؤية ChatGPT
تمكين اكتشاف الجزيئات لترجمة التسميات الجزيئية باستخدام نماذج اللغة الكبيرة: رؤية ChatGPT
Jiatong Li Yunqing Liu Wenqi Fan Xiao-Yong Wei Hui Liu Jiliang Tang Qing Li
الملخص
اكتشاف الجزيئات يلعب دورًا حاسمًا في مختلف المجالات العلمية، مما يساهم في تصميم المواد والعقاقير المخصصة. ومع ذلك، تعتمد معظم الطرق الحالية بشكل كبير على الخبراء في المجال، وتتطلب تكلفة حوسبة مفرطة، أو تعاني من أداء غير مثالي. من ناحية أخرى، أثبتت النماذج اللغوية الكبيرة (LLMs) مثل ChatGPT كفاءة ملحوظة في مجموعة متنوعة من المهام متعددة الوسائط بفضل قدراتها القوية في فهم اللغة الطبيعية، والعمومية، والتعلم السياقي (ICL)، مما يوفر فرصًا غير مسبوقة لتطوير اكتشاف الجزيئات. رغم أن العديد من الأعمال السابقة حاولت تطبيق LLMs في هذه المهمة، لا تزال نقص البيانات المرتبطة بالمجال وصعوبات تدريب النماذج اللغوية المتخصصة تمثل تحديات.في هذا العمل، نقترح إطار عمل جديد مستند إلى النماذج اللغوية الكبيرة (MolReGPT) لترجمة الرسوم التوضيحية للجزيئات إلى النصوص، حيث يتم تقديم نموذج التعلم القليل السياقي للمolecules (In-Context Few-Shot Molecule Learning) لتمكين اكتشاف الجزيئات باستخدام نماذج مثل ChatGPT لأداء قدرتها في التعلم السياقي دون الحاجة إلى التدريب الأولي أو التعديل الدقيق المحدد للمجال. يستفيد MolReGPT من مبدأ الشبه الجزيئي لاسترجاع جزيئات مشابهة ووصفها النصي من قاعدة بيانات محلية لتوفير أمثلة سياقية يمكن للنماذج اللغوية الكبيرة التعلم منها.لقد قمنا بتقييم فعالية MolReGPT في ترجمة الرسوم التوضيحية للجزيئات إلى النصوص، بما في ذلك فهم الجزيء وإنشاء جزيء بناءً على النص. أظهرت النتائج التجريبية أن MolReGPT يتفوق على النماذج المعاد ضبطها مثل MolT5-base ويقارن مع MolT5-large بدون تدريب إضافي. وفي حدود علمنا، يعتبر MolReGPT أول عمل يستخدم النماذج اللغوية الكبيرة عبر التعلم السياقي في ترجمة الرسوم التوضيحية للجزيئات بهدف تطوير اكتشاف الجزيئات. يعمل بحثنا على توسيع نطاق تطبيقات النماذج اللغوية الكبيرة، بالإضافة إلى توفير نموذج جديد للاكتشاف والتصميم الجزيئي.