HyperAIHyperAI

Command Palette

Search for a command to run...

خوارزمية الممثل-الناقد للتنبؤ بالسلسلة

Dzmitry Bahdanau Philemon Brakel Ryan Lowe Joelle Pineau Kelvin Xu Anirudh Goyal Aaron Courville Yoshua Bengio

الملخص

نقدم نهجًا لتدريب الشبكات العصبية على إنشاء التسلسلات باستخدام طرق الممثل والناقد (actor-critic) من تعلم التعزيز (RL). تقتصر الطرق الحالية لتدريب الاحتمال اللوغاريتمي على الاختلاف بين وضع التدريب ووضع الاختبار، حيث يجب على النماذج إنشاء الرموز مشروطةً بتخميناتها السابقة بدلاً من الرموز الحقيقية. نعالج هذه المشكلة بإدخال شبكة \textit{ناقد} يتم تدريبها على التنبؤ بقيمة رمز الإخراج، معطوفةً على سياسة شبكة \textit{ممثل}. هذا يؤدي إلى إجراء تدريبي أقرب بكثير إلى مرحلة الاختبار، ويسمح لنا بتحسين التحسين المباشر لمقياس محدد للمهمة مثل BLEU. وبشكل حاسم، بما أننا نستفيد من هذه التقنيات في إطار التعلم بالإشراف وليس الإطار التقليدي لتعلم التعزيز، فإننا نشترط شبكة الناقد على الإخراج الحقيقي. نوضح أن طريقتنا تقود إلى أداء أفضل في مهمة اصطناعية وفي ترجمة الآلة من الألمانية إلى الإنجليزية. يفتح تحليلنا الطريق أمام تطبيق مثل هذه الطرق في مهام إنشاء اللغة الطبيعية، مثل ترجمة الآلة وإنشاء الوصف النصي ونمذجة الحوار.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp