InfoGAN: تعلم التمثيل القابل للتفسير من خلال شبكات المولدات التنافسية التي تعظم المعلومات

يصف هذا البحث InfoGAN، وهي امتداد نظري للمعلومات لشبكة المولدات المعادية (Generative Adversarial Network) التي تتمكن من تعلم التمثيلات المنفصلة بطريقة غير مراقبة تمامًا. يُعد InfoGAN شبكة مولدات معادية تقوم أيضًا بتعظيم المعلومات المتبادلة بين مجموعة صغيرة من المتغيرات الكامنة والملاحظة. نشتق حدًا أدنى للهدف المعلوماتي المتبادل يمكن تحسينه بكفاءة، ونوضح أن إجراءنا التدريبي يمكن تفسيره كطريقة متغيرة من خوارزمية الاستيقاظ والنوم (Wake-Sleep algorithm). تحديداً، تمكنت InfoGAN بنجاح من فصل أساليب الكتابة عن أشكال الأرقام في مجموعة بيانات MNIST، والوضعية عن الإضاءة في الصور ثلاثية الأبعاد المرسومة، والأرقام الخلفية عن الرقم المركزي في مجموعة بيانات SVHN. كما أنها اكتشفت مفاهيم بصرية تشمل أساليب الشعر، وجود النظارات الشمسية أو عدمها، والعواطف في مجموعة بيانات الوجوه CelebA. تظهر التجارب أن InfoGAN تتعلم تمثيلات قابلة للتفسير تنافس تلك التي يتم تعلمها بواسطة الطرق الكاملة المراقبة الحالية.