HyperAIHyperAI
منذ 11 أيام

MolReFlect: نحو محاذاة دقيقة داخل السياق بين الجزيئات والنصوص

{Qing Li, Yuqiang Li, Dongzhan Zhou, Wenqi Fan, Di Zhang, Jingdi Lei, Wei Liu, Yunqing Liu, Jiatong Li}
MolReFlect: نحو محاذاة دقيقة داخل السياق بين الجزيئات والنصوص
الملخص

يُعد اكتشاف الجزيئات مجالًا بحثيًا محوريًا، ويؤثر على كل شيء من الأدوية التي نتناولها إلى المواد التي نستخدمها. في الآونة الأخيرة، تم اعتماد نماذج اللغة الكبيرة (LLMs) على نطاق واسع في فهم وتكوين الجزيئات، لكن التوافق بين الجزيئات ووصفها النصي ما زال يمثل تحديًا كبيرًا. عادةً ما تتعامل الجهود السابقة مع الجزيء كسلسلة SMILES عامة أو كرسم بياني جزيئي، مع إغفال التوافق الدقيق بين الهياكل الجزئية للجزيئات والعبارات النصية الوصفية، والتي تُعدّ حاسمة لتحقيق تنبؤات دقيقة وقابلة للتفسير. في هذا السياق، نقدّم MolReFlect، وهي إطار جديد من نوع "المعلم والطالب" مصمم لتنفيذ التوافق بين الجزيئات والنصوص الوصفية بطريقة دقيقة ومُتَعَلِّقة بالسياق. تعتمد طريقة عملنا أولاً على نموذج لغة كبير (معلم) لوضع العلامات على التوافق التفصيلي من خلال استخراج مباشرة للعبارات المهمة من وصف الجزيء أو سلسلة SMILES، وربطها بالهياكل الجزئية أو الخصائص المقابلة. لتحسين هذه التوافقات، نقترح تقنية "الانعكاس المُنتقى في السياق"، التي تسترجع نتائج الاستخراج السابقة كأمثلة سياقية، مما يسمح لنموذج المعلم بالانعكاس عليها، ويُتيح لنموذج الطالب الصغير اختيار النتائج الأنسب من بين الانعكاسات السياقية والنتائج السابقة. وأخيرًا، نعزز عملية التعلّم لنموذج الطالب من خلال تقنية "الضبط الجزيئي السياقي بسلسلة التفكير" (Chain-of-Thought In-Context Molecule Tuning)، التي تدمج التوافقات الدقيقة مع عمليات التفكير ضمن هيكل سلسلة التفكير. تُظهر النتائج التجريبية أن MolReFlect تمكّن نماذج مثل Mistral-7B من التفوق بشكل كبير على النماذج السابقة، وتحقيق أداءً رائدًا (SOTA) على مجموعة بيانات ChEBI-20. ويمثل هذا التقدم تحسينًا كبيرًا في القدرات الإنشائية لنموذج اللغة الكبيرة في مهام الترجمة بين الجزيئات والنصوص الوصفية، كما يسهم في بناء إطار أكثر شفافية وقابلية للتفسير.

MolReFlect: نحو محاذاة دقيقة داخل السياق بين الجزيئات والنصوص | أحدث الأوراق البحثية | HyperAI