التعلم القائم على السياسة غير المباشرة للبحث الفعّال والكفوء عن هياكل GAN

في هذه الورقة، نقدم منهجية جديدة لاستكشاف الهياكل العصبية (NAS) تعتمد على التعلم القوي (RL) لاستكشاف هياكل الشبكات التوليدية المتنافسة (GAN) بشكل فعّال وكفؤ. الفكرة الأساسية تكمن في صياغة مشكلة استكشاف هيكل GAN على شكل عملية اتخاذ قرارات ماركوفية (MDP) لضمان عينات أسلوبية أكثر سلاسة، مما يمكّن من تطوير خوارزمية استكشاف قائمة على التعلم القوي بشكل أكثر فعالية، بهدف الوصول إلى الهيكل المثالي المحتمل عالميًا. ولتحسين الكفاءة، نستخدم خوارزمية استكشاف هياكل GAN غير المُوجَّهة (off-policy) التي تستفيد بكفاءة من العينات المُنتجة بواسطة السياسات السابقة. وتشير التقييمات على مجموعتي بيانات معياريتيتين (ألا وهي CIFAR-10 وSTL-10) إلى أن الطريقة المقترحة قادرة على اكتشاف هياكل تنافسية للغاية، مما يؤدي إلى نتائج توليد صور أفضل بشكل عام، مع تقليل كبير في العبء الحسابي يصل إلى 7 ساعات باستخدام وحدة معالجة الرسومات (GPU). يمكن الوصول إلى الشفرة المصدرية للطريقة من خلال الرابط التالي: https://github.com/Yuantian013/E2GAN.