HyperAIHyperAI
منذ 12 أيام

Klear-Reasoner: تطوير القدرة على الاستنتاج من خلال تحسين سياسة القص الحافظة للجزئية

Zhenpeng Su, Leiyu Pan, Xue Bai, Dening Liu, Guanting Dong, Jiaming Huang, Wenping Hu, Guorui Zhou
Klear-Reasoner: تطوير القدرة على الاستنتاج من خلال تحسين سياسة القص الحافظة للجزئية
الملخص

نقدّم نموذج Klear-Reasoner، وهو نموذج يتمتع بقدرات تفكير طويلة، ويُظهر تفكيرًا متأنّيًا أثناء حل المشكلات، ويحقق أداءً متميزًا عبر عدة معايير تقييمية. وعلى الرغم من وجود العديد من الدراسات المتميزة المتعلقة بنماذج الاستدلال في المجتمع الحالي، لا تزال هناك مشكلات متعددة في إعادة إنتاج نماذج الاستدلال عالية الأداء، نظرًا لعدم الإفصاح الكامل عن تفاصيل التدريب. وتقدّم هذه الورقة تحليلًا معمقًا للنموذج المُستدلّ، مغطيةً العملية الكاملة ما بعد التدريب، بدءًا من إعداد البيانات، ومرورًا بتحسين التدريب المُراقب باستخدام سلسلة التفكير الطويلة (Long Chain-of-Thought Supervised Fine-Tuning – Long CoT SFT)، ووصولًا إلى التعلم المعزّز (Reinforcement Learning – RL)، إلى جانب دراسات تحليلية مفصلة لكل عنصر تجريبي. وبالنسبة لبيانات التدريب المُراقب، تُظهر تجاربنا أن عددًا صغيرًا من مصادر البيانات عالية الجودة يكون أكثر فعالية من عدد كبير من المصادر المتنوعة، وأن العينات الصعبة يمكن أن تُحقّق نتائج أفضل دون الحاجة إلى تصفية دقيقة. كما نستعرض قضيتين رئيسيتين تتعلقان بآليات التقطيع الحالية في التعلم المعزّز: حيث يُثبّط التقطيع الإشارات الحرّة المهمّة للاستكشاف، ويتجاهل المسارات غير المثلى. ولحل هذه التحديات، نقترح طريقة تحسين السياسة المُحفّزة بالGradient (GPPO)، التي تقوم بعكس التدرجات بسلاسة من خلال الرموز المقطوعة. وتُحسّن GPPO ليس فقط قدرة النموذج على الاستكشاف، بل تُعزّز أيضًا كفاءته في التعلّم من العينات السلبية. ويُظهر نموذج Klear-Reasoner قدرات استدلال استثنائية في الرياضيات والبرمجة، حيث حقق 90.5% في معيار AIME 2024، و83.2% في AIME 2025، و66.0% في LiveCodeBench V5، و58.1% في LiveCodeBench V6.

Klear-Reasoner: تطوير القدرة على الاستنتاج من خلال تحسين سياسة القص الحافظة للجزئية | أحدث الأوراق البحثية | HyperAI