HyperAIHyperAI
منذ 10 أيام

مول-آر1: نحو الاستدلال الطويل الصريح بـ CoT في اكتشاف الجزيئات

Jiatong Li, Weida Wang, Qinggang Zhang, Junxian Li, Di Zhang, Changmeng Zheng, Shufei Zhang, Xiaoyong Wei, Qing Li
مول-آر1: نحو الاستدلال الطويل الصريح بـ CoT في اكتشاف الجزيئات
الملخص

نموذجات اللغة الكبيرة (LLMs)، وخاصة نماذج الاستنتاج الطويل المُحدّد (Explicit Long Chain-of-Thought) مثل DeepSeek-R1 وQWQ، أظهرت قدرات استنتاجية قوية، وحققت أداءً متميزًا في الاستدلال العقلي والاستنتاج الرياضي. وعلى الرغم من فعاليتها، فإن نماذج الاستنتاج الطويل (Long-CoT) غالبًا ما تُنتقد لضعف قدرتها وانخفاض كفاءتها في المجالات التي تعتمد على المعرفة بكثافة، مثل اكتشاف الجزيئات. ويتطلب النجاح في هذا المجال فهمًا دقيقًا للمعرفة المتخصصة، بما في ذلك الهياكل الجزيئية والمبادئ الكيميائية، وهو أمر يُعدّ صعبًا نظرًا للتعقيد الداخلي للبيانات الجزيئية وندرة التصنيفات الخبرية عالية الجودة. ولسد هذه الفجوة، نقدم إطار عمل جديد يُسمى Mol-R1، مُصمم لتحسين شفافية الاستنتاج وأداء الاستدلال في نماذج LLM من نوع R1 التي تعتمد على الاستنتاج الطويل المُحدّد، في مهام توليد الجزيئات القائمة على النص. يبدأ نهجنا بقاعدة بيانات استنتاج عالية الجودة تم تجميعها من خلال استراتيجية التوليف المُوجه بالقواعد السابقة عبر الاستخلاص السياقي (PRID)، وهي استراتيجية توليف مخصصة تُستخدم لاستخلاص آثار استنتاجية مزدوجة موجهة بقواعد مسبقة. وبما يُبنى على هذه القاعدة، نُقدّم MoIA (التكيف التكراري للجزيئات)، وهي استراتيجية تدريب متقدمة تقوم على دمج تدريب التحسين المراقب (SFT) مع تحسين السياسة المعززة (RPO) بشكل تكراري، بهدف تعزيز أداء الاستدلال في نماذج الاستنتاج من نوع R1 في مجال اكتشاف الجزيئات. وأخيرًا، نقوم بتحليل أداء Mol-R1 في مهمة توليد الجزيئات القائمة على الاستدلال النصي، حيث أظهر أداءً متفوقًا مقارنةً بالأساليب القائمة.