Step-DPO: التحسين التفضيلي التدريجي للتفكير المتسلسل الطويل في نماذج LLM

تُشكّل الاستدلال الرياضي تحديًا كبيرًا لنموذجات اللغة الكبيرة (LLMs) نظرًا للسلسلة الطويلة والدقيقة من الاستدلالات المطلوبة للحصول على دقة عالية. إن ضمان صحة كل خطوة في الاستدلال أمر بالغ الأهمية. ولحل هذه المشكلة، نسعى إلى تعزيز موثوقية وواقعية نماذج لغة كبيرة من خلال التعلم من التغذية الراجعة البشرية. ومع ذلك، أظهرت طريقة التحسين المباشر للترغيب (DPO) فوائد محدودة في الاستدلال الرياضي الطويل، حيث يواجه النماذج المستخدمة لـ DPO صعوبة في تحديد الأخطاء التفصيلية في الإجابات الخاطئة. وينبع هذا التقييد من غياب رقابة دقيقة على العملية. نقترح طريقة بسيطة وفعّالة وموفرة للبيانات تُسمى Step-DPO، التي تُعامل كل خطوة من خطوات الاستدلال كوحدة منفصلة للتحسين حسب التفضيل، بدلًا من تقييم الإجابة بشكل شامل. بالإضافة إلى ذلك، طوّرنا خط أنابيب لبناء البيانات لـ Step-DPO، مما يمكّن من إنشاء مجموعة بيانات عالية الجودة تحتوي على 10,000 زوج من التفضيلات خطوة بخطوة. كما لاحظنا أن البيانات التي يُولّدها النموذج نفسه تكون أكثر فعالية من البيانات التي يُولّدها البشر أو GPT-4، نظرًا لطبيعتها الخارجة عن التوزيع (out-of-distribution). تُظهر نتائجنا أن عددًا قليلًا من أزواج البيانات التفضيلية، لا يتجاوز 10,000 زوج، مع أقل من 500 خطوة تدريبية لـ Step-DPO، يمكن أن يحقق زيادة تصل إلى 3٪ تقريبًا في الدقة على مجموعة بيانات MATH بالنسبة للنماذج التي تضم أكثر من 70 مليار معلمة. وبشكل لافت، حقق Step-DPO، عند تطبيقه على نموذج Qwen2-72B-Instruct، درجات بلغت 70.8٪ و94.0٪ على مجموعتي الاختبار لـ MATH وGSM8K على التوالي، متفوقًا على سلسلة من النماذج المغلقة المصدر، بما في ذلك GPT-4-1106 وClaude-3-Opus وGemini-1.5-Pro. يُمكن الوصول إلى الكود والبيانات والنماذج الخاصة بنا عبر الرابط: https://github.com/dvlab-research/Step-DPO.