تعزيز الخصائص في ضبط التعليم لتقديم جزيئات متعددة المهام باستخدام نماذج اللغة الكبيرة

النماذج اللغوية الكبيرة (LLMs) تُستخدم على نطاق واسع في مهام معالجة اللغة الطبيعية مثل الإجابة على الأسئلة والترجمة الآلية. ومع ذلك، بسبب نقص البيانات المصنفة وصعوبة التسمية اليدوية للخصائص البيوكيميائية، لا يزال أداء مهام توليد الجزيئات محدودًا، خاصةً في المهام التي تتضمن قيودًا متعددة الخصائص. في هذا العمل، نقدم إطار عمل من خطوتين يُسمى PEIT (تعزيز التعليمات بالخصائص) لتحسين النماذج اللغوية الكبيرة في المهام المتعلقة بالجزيئات. في الخطوة الأولى، نستخدم الوصف النصي، ورموز SMILES، والخصائص البيوكيميائية كمدخلات متعددة الأوضاع لتدريب نموذج يُدعى PEIT-GEN، وذلك عن طريق تنسيق تمثيلات متعددة الأوضاع لتوليف بيانات التعليمات. في الخطوة الثانية، نقوم بضبط النماذج اللغوية الكبيرة ذات المصدر المفتوح باستخدام البيانات المتولدة، مما يؤدي إلى الحصول على PEIT-LLM قادر على التعامل مع تعليقات الجزيئات وتوليد الجزيئات بناءً على النص وتوقع خصائص الجزيئات ومهمة توليد الجزيئات الجديدة المقترحة التي تتضمن قيودًا متعددة. تظهر النتائج التجريبية أن نموذجنا المدرب مسبقًا PEIT-GEN يتفوق على MolT5 و BioT5 في تعليقات الجزيئات، مما يدل على التناسق الجيد بين الوصف النصي والهياكل والخصائص البيوكيميائية. علاوة على ذلك، يظهر PEIT-LLM تحسينات واعدة في توليد الجزيئات متعدد المهام، مما يثبت قابلية توسيع إطار العمل PEIT لمهام مختلفة مرتبطة بالجزيئات. لقد أطلقنا الرمز والمعلومات التعليمية المحصلة ونقاط التحقق من صحة النموذج في https://github.com/chenlong164/PEIT.