HyperAIHyperAI

Command Palette

Search for a command to run...

زفير: التقطير المباشر لممحاذاة نموذج اللغة

الملخص

نهدف إلى إنتاج نموذج لغوي أصغر يتماشى مع نوايا المستخدم.أظهرت الدراسات السابقة أن تطبيق التدريب الدقيق المُستخلص (dSFT) على النماذج الأكبر يحسن بشكل كبير دقة المهمة؛ ومع ذلك، فإن هذه النماذج غير متماهية، أي أنها لا تستجيب بشكل جيد للإرشادات الطبيعية. لاستخلاص هذه الخاصية، نجري تجارب باستخدام بيانات التفضيل من ردود الفعل الذكاء الاصطناعي (AIF). بدءًا من مجموعة بيانات تحتوي على الإخراج المرتب بواسطة نموذج المعلم، نطبق التحسين المباشر للتفضيل المستخلص (dDPO) لتعلم نموذج دردشة يتميز بتحسين كبير في التوافق مع النوايا. يتطلب هذا النهج فقط ساعات قليلة من التدريب دون الحاجة إلى أي عينات إضافية أثناء التدريب الدقيق. النتيجة النهائية، Zephyr-7B، تحدد الحالة الرائدة في مقاييس الدردشة للنماذج ذات 7 مليارات معلمة، ولا تتطلب أي تعليقات بشرية. وبشكل خاص، أظهرت النتائج على MT-Bench أن Zephyr-7B يتفوق على Llama2-Chat-70B، وهو أفضل نموذج مبني على RLHF متاح للجميع. الكود والنماذج والبيانات والدروس التعليمية للنظام متاحة على الرابط: https://github.com/huggingface/alignment-handbook.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp