منذ شهر واحد

يمكن للنماذج اللغوية أن تتعلم من الملاحظات اللفظية دون مكافآت قياسية

Renjie Luo Zichen Liu Xiangyan Liu Chao Du Min Lin Wenhu Chen Wei Lu Tianyu Pang

الملخص

تُدرَّب النماذج الكبيرة للغة غالبًا باستخدام التعلم بالتعزيز من خلال ملاحظات بشرية أو ذكاء اصطناعي، لكن هذه الطرق تُفضّل عادةً تبسيط الملاحظات المعقدة إلى مكافآت قياسية، مما يؤدي إلى فقدان جزء كبير من غناها، ويُحدث توازنًا غير متساوٍ على المستوى الكمي. نقترح اعتبار الملاحظات اللفظية إشارة تأثيرية (conditioning signal). مستلهمين من التحيّزات اللغوية المستخدمة في توليد الصور من النصوص، والتي تُمكّن من إنتاج مخرجات جديدة من أوامر لم تُرَ من قبل، نقدّم ما يُعرف بـ "السياسة المشروطة بالملاحظات" (Feedback-Conditional Policy - FCP). تعتمد FCP على التعلّم المباشر من أزواج الاستجابة-الملاحظات، وتحاول تقريب التوزيع الاحتمالي المشروط بالملاحظات من خلال تدريب ماكسيموم الاحتمال على بيانات مُخزّنة مسبقًا. كما طوّرنا مرحلة تَغذية ذاتية (bootstrapping) عبر الإنترنت، حيث تُولِّد السياسة نتائج تحت ظروف إيجابية وتتلقى ملاحظات جديدة لتحسين نفسها ذاتيًا. يُعيد هذا النهج تشكيل التعلّم القائم على الملاحظات كعملية توليد مشروط، بدلًا من تحسين المكافآت، مما يوفّر طريقة أكثر تعبيرًا للنماذج الكبيرة للغة للتعلّم المباشر من الملاحظات اللفظية. يمكن الاطلاع على الكود الخاص بنا عبر الرابط: https://github.com/sail-sg/feedback-conditional-policy.

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي

وحدات معالجة رسومات جاهزة

أفضل الأسعار

ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

Command Palette

يمكن للنماذج اللغوية أن تتعلم من الملاحظات اللفظية دون مكافآت قياسية

Renjie Luo Zichen Liu Xiangyan Liu Chao Du Min Lin Wenhu Chen Wei Lu Tianyu Pang

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

Hyper Newsletters