HyperAIHyperAI
منذ 14 أيام

على التعميم لطريقة SFT: من منظور تعلم التدعيم مع تصحيح المكافأة

Yongliang Wu, Yizhou Zhou, Zhou Ziheng, Yingzhe Peng, Xinyu Ye, Xinting Hu, Wenbo Zhu, Lu Qi, Ming-Hsuan Yang, Xu Yang
على التعميم لطريقة SFT: من منظور تعلم التدعيم مع تصحيح المكافأة
الملخص

نقدم تحسينًا بسيطًا لكنه مُبرَّر نظريًا لعملية التخصيص المُوجَّه (SFT) في النماذج اللغوية الكبيرة (LLM)، وذلك لمعالجة قدرتها المحدودة على التعميم مقارنةً بتعلم التقويم (RL). من خلال التحليل الرياضي، كشفنا أن التدرجات القياسية لـ SFT تحتوي ضمنيًا على هيكل مكافأة مشكل، قد يحد بشكل كبير من قدرات النموذج على التعميم. ولتصحيح هذا، نقترح طريقة التخصيص الديناميكي (DFT)، التي تُثبّت تحديثات التدرج لكل رمز من خلال إعادة تطبيع ديناميكي للدالة الهدف بناءً على احتمالية ظهور ذلك الرمز. وبشكل ملحوظ، فإن هذا التغيير البسيط المكوّن من سطر واحد من الكود يتفوّق بشكل كبير على SFT القياسي في عدة معايير صعبة ونماذج أساسية، مُظهِرًا تحسنًا كبيرًا في التعميم. بالإضافة إلى ذلك، تُظهر طريقتنا نتائج تنافسية في البيئات التي تعتمد على التعلم المُخزّن (offline RL)، مما يقدّم بديلًا فعّالًا وأبسط. تُعد هذه الدراسة نقلة نوعية تربط بين الرؤى النظرية والحلول العملية، وتحسّن بشكل كبير من أداء SFT. وستُتاح الكود المصدر في الرابط التالي: https://github.com/yongliang-wu/DFT.