Command Palette
Search for a command to run...
يمكن للنماذج اللغوية أن تتعلم من الملاحظات اللفظية دون مكافآت قياسية
Renjie Luo Zichen Liu Xiangyan Liu Chao Du Min Lin Wenhu Chen Wei Lu Tianyu Pang

الملخص
تُدرَّب النماذج الكبيرة للغة غالبًا باستخدام التعلم بالتعزيز من خلال ملاحظات بشرية أو ذكاء اصطناعي، لكن هذه الطرق تُفضّل عادةً تبسيط الملاحظات المعقدة إلى مكافآت قياسية، مما يؤدي إلى فقدان جزء كبير من غناها، ويُحدث توازنًا غير متساوٍ على المستوى الكمي. نقترح اعتبار الملاحظات اللفظية إشارة تأثيرية (conditioning signal). مستلهمين من التحيّزات اللغوية المستخدمة في توليد الصور من النصوص، والتي تُمكّن من إنتاج مخرجات جديدة من أوامر لم تُرَ من قبل، نقدّم ما يُعرف بـ "السياسة المشروطة بالملاحظات" (Feedback-Conditional Policy - FCP). تعتمد FCP على التعلّم المباشر من أزواج الاستجابة-الملاحظات، وتحاول تقريب التوزيع الاحتمالي المشروط بالملاحظات من خلال تدريب ماكسيموم الاحتمال على بيانات مُخزّنة مسبقًا. كما طوّرنا مرحلة تَغذية ذاتية (bootstrapping) عبر الإنترنت، حيث تُولِّد السياسة نتائج تحت ظروف إيجابية وتتلقى ملاحظات جديدة لتحسين نفسها ذاتيًا. يُعيد هذا النهج تشكيل التعلّم القائم على الملاحظات كعملية توليد مشروط، بدلًا من تحسين المكافآت، مما يوفّر طريقة أكثر تعبيرًا للنماذج الكبيرة للغة للتعلّم المباشر من الملاحظات اللفظية. يمكن الاطلاع على الكود الخاص بنا عبر الرابط: https://github.com/sail-sg/feedback-conditional-policy.
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.