HyperAIHyperAI
منذ 15 أيام

تقرير تقني: Qwen2.5-Math - نحو نموذج خبير رياضي من خلال التحسين الذاتي

An Yang, Beichen Zhang, Binyuan Hui, Bofei Gao, Bowen Yu, Chengpeng Li, Dayiheng Liu, Jianhong Tu, Jingren Zhou, Junyang Lin, Keming Lu, Mingfeng Xue, Runji Lin, Tianyu Liu, Xingzhang Ren, Zhenru Zhang
تقرير تقني: Qwen2.5-Math - نحو نموذج خبير رياضي من خلال التحسين الذاتي
الملخص

في هذا التقرير، نقدم سلسلة من النماذج الكبيرة للغة المخصصة للرياضيات: Qwen2.5-Math وQwen2.5-Math-Instruct-1.5B/7B/72B. تكمن الابتكار الأساسي في سلسلة Qwen2.5 في دمج فلسفة التحسين الذاتي عبر كامل العملية، بدءًا من التدريب المسبق وحتى التدريب اللاحق والتخمين: (1) خلال مرحلة التدريب المسبق، يتم استخدام Qwen2-Math-Instruct لإنشاء كميات ضخمة من البيانات الرياضية عالية الجودة. (2) في مرحلة التدريب اللاحق، نقوم بتطوير نموذج مكافأة (RM) من خلال أخذ عينات ضخمة من Qwen2-Math-Instruct. ثم يتم استخدام هذا النموذج في تطوير البيانات بشكل تكراري ضمن التدريب المخصص تحت الإشراف (SFT). وبفضل نموذج SFT الأقوى، يصبح من الممكن تدريب RM بشكل تكراري وتحديثه، والذي بدوره يوجه الجولة التالية من تطوير بيانات SFT. وفي النموذج النهائي لـ SFT، نستخدم النموذج النهائي لـ RM في التعلم بالتعزيز، مما يؤدي إلى نموذج Qwen2.5-Math-Instruct. (3) علاوة على ذلك، أثناء مرحلة التخمين، يُستخدم RM لتوجيه عملية أخذ العينات، مما يُحسّن أداء النموذج.يدعم نموذج Qwen2.5-Math-Instruct كلًا من اللغة الصينية والإنجليزية، وتمتلك قدرات متقدمة في التفكير الرياضي، بما في ذلك التفكير المتسلسل (Chain-of-Thought - CoT) والتفكير المتكامل بالأدوات (Tool-Integrated Reasoning - TIR). وقد قمنا بتقييم نماذجنا على 10 مجموعات بيانات رياضية باللغتين الإنجليزية والصينية، مثل GSM8K وMATH وGaoKao وAMC23 وAIME24، وتغطي هذه المجموعات مجموعة متنوعة من المستويات الصعوبة، بدءًا من مستويات المدارس الابتدائية وحتى مشكلات المنافسات الرياضية.

تقرير تقني: Qwen2.5-Math - نحو نموذج خبير رياضي من خلال التحسين الذاتي | أحدث الأوراق البحثية | HyperAI