HyperAIHyperAI
منذ 2 أشهر

زفير: التقطير المباشر لممحاذاة نموذج اللغة

Tunstall, Lewis ; Beeching, Edward ; Lambert, Nathan ; Rajani, Nazneen ; Rasul, Kashif ; Belkada, Younes ; Huang, Shengyi ; von Werra, Leandro ; Fourrier, Clémentine ; Habib, Nathan ; Sarrazin, Nathan ; Sanseviero, Omar ; Rush, Alexander M. ; Wolf, Thomas
زفير: التقطير المباشر لممحاذاة نموذج اللغة
الملخص

نهدف إلى إنتاج نموذج لغوي أصغر يتماشى مع نوايا المستخدم.أظهرت الدراسات السابقة أن تطبيق التدريب الدقيق المُستخلص (dSFT) على النماذج الأكبر يحسن بشكل كبير دقة المهمة؛ ومع ذلك، فإن هذه النماذج غير متماهية، أي أنها لا تستجيب بشكل جيد للإرشادات الطبيعية. لاستخلاص هذه الخاصية، نجري تجارب باستخدام بيانات التفضيل من ردود الفعل الذكاء الاصطناعي (AIF). بدءًا من مجموعة بيانات تحتوي على الإخراج المرتب بواسطة نموذج المعلم، نطبق التحسين المباشر للتفضيل المستخلص (dDPO) لتعلم نموذج دردشة يتميز بتحسين كبير في التوافق مع النوايا. يتطلب هذا النهج فقط ساعات قليلة من التدريب دون الحاجة إلى أي عينات إضافية أثناء التدريب الدقيق. النتيجة النهائية، Zephyr-7B، تحدد الحالة الرائدة في مقاييس الدردشة للنماذج ذات 7 مليارات معلمة، ولا تتطلب أي تعليقات بشرية. وبشكل خاص، أظهرت النتائج على MT-Bench أن Zephyr-7B يتفوق على Llama2-Chat-70B، وهو أفضل نموذج مبني على RLHF متاح للجميع. الكود والنماذج والبيانات والدروس التعليمية للنظام متاحة على الرابط: https://github.com/huggingface/alignment-handbook.

زفير: التقطير المباشر لممحاذاة نموذج اللغة | أحدث الأوراق البحثية | HyperAI