HyperAIHyperAI
منذ 2 أشهر

SeqGAN: شبكات التوليد المتنافسة للسلسلة باستخدام تدرج السياسة

Lantao Yu; Weinan Zhang; Jun Wang; Yong Yu
SeqGAN: شبكات التوليد المتنافسة للسلسلة باستخدام تدرج السياسة
الملخص

كطريقة جديدة لتدريب النماذج التوليدية، حققت شبكات المولدات التنافسية (GAN) نجاحًا كبيرًا في توليد البيانات الحقيقية باستخدام نموذج تمييز لتعزيز تدريب النموذج التوليدي. ومع ذلك، فإنها تواجه تحديات عند الهدف هو إنشاء سلاسل من الرموز المتقطعة. السبب الرئيسي يكمن في أن المخرجات المتقطعة من النموذج التوليدي تجعل من الصعب نقل تحديث التدرج من النموذج التميزي إلى النموذج التوليدي. بالإضافة إلى ذلك، يمكن للنموذج التميزي فقط تقييم سلسلة كاملة، بينما يعد موازنة درجة السلسلة الحالية والمستقبلية بعد إنشاء السلسلة الكاملة أمرًا غير بسيط.في هذه الورقة البحثية، نقترح إطارًا لتوليد السلاسل يُعرف باسم SeqGAN لحل المشكلات. يتم نمذجة مولد البيانات كسياسة عشوائية في التعلم التعزيزي (RL)، حيث يقوم SeqGAN بتخطي مشكلة الاشتقاق في المولد عن طريق أداء تحديث سياسة التدرج مباشرة. يأتي الإشارة المكافئة من نظام التعلم التعزيزي (RL) من مميز GAN الذي يحكم على سلسلة كاملة، وينتقل إلى خطوات الحالة-الإجراء الوسيطة باستخدام البحث مونتي كارلو. تظهر التجارب الواسعة على البيانات الاصطناعية والمهمات الواقعية تحسينات كبيرة على القواعد الأساسية القوية.