HyperAIHyperAI

Command Palette

Search for a command to run...

الضبط الدقيق للتعزيزات

التاريخ

منذ عام واحد

الضبط الدقيق للتعزيز (RFT) هو أسلوب يجمع بين الضبط الدقيق الخاضع للإشراف (SFT) والتعلم المعزز (RL). ويهدف إلى تحسين قدرة النموذج على توليد إجابات عالية الجودة من خلال إدخال تعلم مسارات التفكير المتعددة وتقييم درجة التطابق بين هذه المسارات والإجابات الصحيحة بشكل تلقائي.

تم اقتراح RFT لأول مرة بواسطة ByteDance في عام 2024.ReFT: التفكير باستخدام الضبط الدقيق المعززنُشرت هذه التقنية في ACL 2024. تُحسّن هذه التقنية أداء النموذج عبر مرحلتين: الأولى هي مرحلة الإحماء، والتي تستخدم SFT لتسخين النموذج وتوفير أساس له لتوليد استجابات صحيحة أساسًا للمسائل الرياضية؛ والثانية هي مرحلة التعلم التعزيزي (RL)، والتي تستخدم التعلم التعزيزي عبر الإنترنت (وخاصةً خوارزمية PPO) للتحسين، من خلال أخذ عينات تلقائيًا من عدد كبير من مسارات التفكير والحصول على مكافآت بناءً على الإجابات الحقيقية لمزيد من ضبط النموذج.

يُظهر RFT أداءً أفضل من SFT على مجموعات بيانات متعددة، وخاصةً على نموذج CodeLLAMA. إن دقة RFT على مجموعة بيانات GSM8K أعلى بنحو 10 نقاط مئوية من دقة SFT. تسمح هذه التقنية للنموذج ليس فقط بتعلم الإجابات، بل أيضًا بتحسين مسارات التفكير استنادًا إلى متطلبات المهمة، وبناء "حلقة ردود فعل" للنموذج، وتوجيه تسجيل نتائج النموذج بواسطة مسجلين محددين للمجال لتدريب الحلول التي تتكيف مع متطلبات السيناريوهات المحددة.

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي
وحدات معالجة رسومات جاهزة
أفضل الأسعار
ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp