HyperAI

الضبط الدقيق للتعزيزات

الضبط الدقيق للتعزيز (RFT) هو أسلوب يجمع بين الضبط الدقيق الخاضع للإشراف (SFT) والتعلم المعزز (RL). ويهدف إلى تحسين قدرة النموذج على توليد إجابات عالية الجودة من خلال إدخال تعلم مسارات التفكير المتعددة وتقييم درجة التطابق بين هذه المسارات والإجابات الصحيحة بشكل تلقائي.

تم اقتراح RFT لأول مرة بواسطة ByteDance في عام 2024.ReFT: التفكير باستخدام الضبط الدقيق المعززنُشرت هذه التقنية في ACL 2024. تُحسّن هذه التقنية أداء النموذج عبر مرحلتين: الأولى هي مرحلة الإحماء، والتي تستخدم SFT لتسخين النموذج وتوفير أساس له لتوليد استجابات صحيحة أساسًا للمسائل الرياضية؛ والثانية هي مرحلة التعلم التعزيزي (RL)، والتي تستخدم التعلم التعزيزي عبر الإنترنت (وخاصةً خوارزمية PPO) للتحسين، من خلال أخذ عينات تلقائيًا من عدد كبير من مسارات التفكير والحصول على مكافآت بناءً على الإجابات الحقيقية لمزيد من ضبط النموذج.

يُظهر RFT أداءً أفضل من SFT على مجموعات بيانات متعددة، وخاصةً على نموذج CodeLLAMA. إن دقة RFT على مجموعة بيانات GSM8K أعلى بنحو 10 نقاط مئوية من دقة SFT. تسمح هذه التقنية للنموذج ليس فقط بتعلم الإجابات، بل أيضًا بتحسين مسارات التفكير استنادًا إلى متطلبات المهمة، وبناء "حلقة ردود فعل" للنموذج، وتوجيه تسجيل نتائج النموذج بواسطة مسجلين محددين للمجال لتدريب الحلول التي تتكيف مع متطلبات السيناريوهات المحددة.