نمذجة البيانات الجدولية باستخدام GAN المشروطة

نمذجة توزيع الاحتمالات لصفوف البيانات الجدولية وإنشاء بيانات مصنعة واقعية هي مهمة ليست بسيطة. البيانات الجدولية عادة ما تحتوي على مزيج من الأعمدة المتقطعة والمستمرة. قد يكون للأعمدة المستمرة عدة أوضاع، بينما تكون الأعمدة المتقطعة غير متوازنة في بعض الأحيان، مما يجعل النمذجة صعبة. تفشل النماذج الإحصائية والشبكات العصبية العميقة الحالية في نمذجة هذا النوع من البيانات بشكل صحيح. قمنا بتصميم TGAN (Conditional Generative Adversarial Network) لمعالجة هذه التحديات. للمساعدة في المقارنة العادلة والشاملة، قمنا بتصميم مقاييس مرجعية تتضمن 7 مجموعات بيانات محاكاة و8 مجموعات بيانات حقيقية وعددًا من أسس الشبكات البيزية. أظهر TGAN تفوقه على الأساليب البيزية في معظم المجموعات البيانات الحقيقية، بينما لم تستطع الأساليب الأخرى القائمة على التعلم العميق تحقيق ذلك.