HyperAIHyperAI

Command Palette

Search for a command to run...

على التعميم لطريقة SFT: من منظور تعلم التدعيم مع تصحيح المكافأة

Yongliang Wu Yizhou Zhou Zhou Ziheng Yingzhe Peng Xinyu Ye Xinting Hu Wenbo Zhu Lu Qi Ming-Hsuan Yang Xu Yang

الملخص

نقدم تحسينًا بسيطًا لكنه مُبرَّر نظريًا لعملية التخصيص المُوجَّه (SFT) في النماذج اللغوية الكبيرة (LLM)، وذلك لمعالجة قدرتها المحدودة على التعميم مقارنةً بتعلم التقويم (RL). من خلال التحليل الرياضي، كشفنا أن التدرجات القياسية لـ SFT تحتوي ضمنيًا على هيكل مكافأة مشكل، قد يحد بشكل كبير من قدرات النموذج على التعميم. ولتصحيح هذا، نقترح طريقة التخصيص الديناميكي (DFT)، التي تُثبّت تحديثات التدرج لكل رمز من خلال إعادة تطبيع ديناميكي للدالة الهدف بناءً على احتمالية ظهور ذلك الرمز. وبشكل ملحوظ، فإن هذا التغيير البسيط المكوّن من سطر واحد من الكود يتفوّق بشكل كبير على SFT القياسي في عدة معايير صعبة ونماذج أساسية، مُظهِرًا تحسنًا كبيرًا في التعميم. بالإضافة إلى ذلك، تُظهر طريقتنا نتائج تنافسية في البيئات التي تعتمد على التعلم المُخزّن (offline RL)، مما يقدّم بديلًا فعّالًا وأبسط. تُعد هذه الدراسة نقلة نوعية تربط بين الرؤى النظرية والحلول العملية، وتحسّن بشكل كبير من أداء SFT. وستُتاح الكود المصدر في الرابط التالي: https://github.com/yongliang-wu/DFT.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp