منذ 2 أشهر
التعلم العميق التعزيزي لنموذج التوافق المرتبط بالذكر
Kevin Clark; Christopher D. Manning

الملخص
تُدرب أنظمة حل الإشارة المرجعية عادةً باستخدام وظائف خسارة تقريبية تتطلب ضبطًا دقيقًا. في هذا البحث، نقوم بدلاً من ذلك بتطبيق التعلم التعزيزي لتحسين مباشر لنموذج تصنيف الذكر العصبي لتقييم الإشارة المرجعية. قمنا بتجربة طريقتين: خوارزمية التدرج الحاسمة REINFORCE (التدرج الحاسمة للتعزيز) والهدف الهامشي الأقصى المُعاد تقييمه بالثواب. وجدنا أن الطريقة الثانية تكون أكثر فعالية، مما أدى إلى تحسينات كبيرة على الحالة الراهنة لأفضل ما تم الوصول إليه في جزئي اللغة الإنجليزية واللغة الصينية من مهمة CoNLL 2012 المشتركة.