Command Palette
Search for a command to run...
يمكن للنماذج اللغوية أن تتعلم من الملاحظات اللفظية دون مكافآت قياسية
يمكن للنماذج اللغوية أن تتعلم من الملاحظات اللفظية دون مكافآت قياسية
Renjie Luo Zichen Liu Xiangyan Liu Chao Du Min Lin Wenhu Chen Wei Lu Tianyu Pang
الملخص
تُدرَّب النماذج الكبيرة للغة غالبًا باستخدام التعلم بالتعزيز من خلال ملاحظات بشرية أو ذكاء اصطناعي، لكن هذه الطرق تُفضّل عادةً تبسيط الملاحظات المعقدة إلى مكافآت قياسية، مما يؤدي إلى فقدان جزء كبير من غناها، ويُحدث توازنًا غير متساوٍ على المستوى الكمي. نقترح اعتبار الملاحظات اللفظية إشارة تأثيرية (conditioning signal). مستلهمين من التحيّزات اللغوية المستخدمة في توليد الصور من النصوص، والتي تُمكّن من إنتاج مخرجات جديدة من أوامر لم تُرَ من قبل، نقدّم ما يُعرف بـ "السياسة المشروطة بالملاحظات" (Feedback-Conditional Policy - FCP). تعتمد FCP على التعلّم المباشر من أزواج الاستجابة-الملاحظات، وتحاول تقريب التوزيع الاحتمالي المشروط بالملاحظات من خلال تدريب ماكسيموم الاحتمال على بيانات مُخزّنة مسبقًا. كما طوّرنا مرحلة تَغذية ذاتية (bootstrapping) عبر الإنترنت، حيث تُولِّد السياسة نتائج تحت ظروف إيجابية وتتلقى ملاحظات جديدة لتحسين نفسها ذاتيًا. يُعيد هذا النهج تشكيل التعلّم القائم على الملاحظات كعملية توليد مشروط، بدلًا من تحسين المكافآت، مما يوفّر طريقة أكثر تعبيرًا للنماذج الكبيرة للغة للتعلّم المباشر من الملاحظات اللفظية. يمكن الاطلاع على الكود الخاص بنا عبر الرابط: https://github.com/sail-sg/feedback-conditional-policy.