HyperAIHyperAI
منذ 2 أشهر

خوارزمية الممثل-الناقد للتنبؤ بالسلسلة

Dzmitry Bahdanau; Philemon Brakel; Kelvin Xu; Anirudh Goyal; Ryan Lowe; Joelle Pineau; Aaron Courville; Yoshua Bengio
خوارزمية الممثل-الناقد للتنبؤ بالسلسلة
الملخص

نقدم نهجًا لتدريب الشبكات العصبية على إنشاء التسلسلات باستخدام طرق الممثل والناقد (actor-critic) من تعلم التعزيز (RL). تقتصر الطرق الحالية لتدريب الاحتمال اللوغاريتمي على الاختلاف بين وضع التدريب ووضع الاختبار، حيث يجب على النماذج إنشاء الرموز مشروطةً بتخميناتها السابقة بدلاً من الرموز الحقيقية. نعالج هذه المشكلة بإدخال شبكة \textit{ناقد} يتم تدريبها على التنبؤ بقيمة رمز الإخراج، معطوفةً على سياسة شبكة \textit{ممثل}. هذا يؤدي إلى إجراء تدريبي أقرب بكثير إلى مرحلة الاختبار، ويسمح لنا بتحسين التحسين المباشر لمقياس محدد للمهمة مثل BLEU. وبشكل حاسم، بما أننا نستفيد من هذه التقنيات في إطار التعلم بالإشراف وليس الإطار التقليدي لتعلم التعزيز، فإننا نشترط شبكة الناقد على الإخراج الحقيقي. نوضح أن طريقتنا تقود إلى أداء أفضل في مهمة اصطناعية وفي ترجمة الآلة من الألمانية إلى الإنجليزية. يفتح تحليلنا الطريق أمام تطبيق مثل هذه الطرق في مهام إنشاء اللغة الطبيعية، مثل ترجمة الآلة وإنشاء الوصف النصي ونمذجة الحوار.

خوارزمية الممثل-الناقد للتنبؤ بالسلسلة | أحدث الأوراق البحثية | HyperAI