Command Palette
Search for a command to run...
إشعال الكتابة الإبداعية في النماذج الصغيرة للغة: نموذج لغة كبير كقاضٍ مقابل المكافآت المُحسَّنة متعددة الوكالات
Xiaolong Wei Bo Lu Xingyu Zhang Zhejun Zhao Dongdong Shen Long Xia Dawei Yin

الملخص
أظهرت النماذج اللغوية الكبيرة (LLMs) قدرات ملحوظة في الكتابة الإبداعية، إلا أن متطلباتها الحسابية الكبيرة تُعيق استخدامها على نطاق واسع. ويعتبر تطوير النماذج اللغوية الصغيرة (SLMs) بديلاً واعداً، لكن الطرق الحالية مثل التدريب المُوجَّه (SFT) تواجه صعوبات في إنتاج الجديد، في حين أن التعلم التعلُّمي من التغذية الراجعة البشرية (RLHF) مكلف من حيث التكلفة. في هذا البحث، نستعرض استراتيجيتين مختلفتين لتقديم المكافآت باستخدام الذكاء الاصطناعي ضمن إطار التعلم التعلُّمي من التغذية الراجعة الذكية (RLAIF)، بهدف تفعيل الكتابة الإبداعية لنموذج لغوي صغير بحجم 7 بيليون معامل (7B)، خصوصاً في إنشاء تحيات باللغة الصينية. تُستخدم الاستراتيجية الأولى نموذجاً مُقيِّماً (RM) تم تدريبه على بيانات تفضيل عالية الجودة تم جمعها بواسطة إطار جديد يعتمد على عينة رفض متعددة الوكلاء، مُصمم خصيصاً للمهام الإبداعية. أما الاستراتيجية الثانية، الأكثر تطوراً، فهي تعتمد على نموذج لغوي (LLM) كمُقيِّم يُوجَّه وفقاً لمبادئ معينة، حيث يتم تحسين دالة المكافأة الخاصة به عبر خوارزمية تدريب مُعادية مزودة بآلية تأمل، لتوفير إشارات مكافأة مباشرة. تُظهر التجارب الشاملة أن كلا النهجين يُحسّنان بشكل ملحوظ من إنتاجية الإبداع مقارنة بالأساليب التقليدية، لكن نموذج LLM كمُقيِّم المُوجَّه بمبدأ معين يُظهر تفوقاً ملحوظاً في جودة النتائج. علاوة على ذلك، يُقدّم هذا النهج مزايا كبيرة من حيث كفاءة التدريب وتقليل الاعتماد على البيانات المُعلَّمة يدويًا من البشر، مما يُمكّن من تطوير نماذج SLM إبداعية بشكل أكثر قابلية للتوسع وفعالية. كما تُظهر طرق تقييمنا الآليّة تطابقاً قوياً مع تقييمات البشر. يُتاح الكود والبيانات المستخدمة في هذا البحث للجمهور عبر الرابط التالي: https://...
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.