MaskGAN: توليد نص أفضل من خلال ملء الفراغات

تُعد نماذج توليد النصوص العصبية غالبًا نماذج لغوية ذاتية التراجع أو نماذج seq2seq. تقوم هذه النماذج بتوليد النصوص من خلال أخذ عينات من الكلمات بشكل متسلسل، حيث تكون كل كلمة مشروطة بالكلمة السابقة، وهي تعتبر من أفضل التقنيات في العديد من مقاييس الترجمة الآلية وتلخيص النصوص. ومع ذلك، غالبًا ما يتم تعريف هذه المقاييس بحسب الالتباس في التحقق (التحقق من الصحة)، رغم أن هذا ليس قياسًا مباشرًا للجودة الفعلية للنصوص المُولَّدة. بالإضافة إلى ذلك، يتم تدريب هذه النماذج عادةً باستخدام الأرجحية القصوى والتدريس الإلزامي. تكون هذه الطرق ملائمة جدًا لتحسين الالتباس في التحقق، ولكنها قد تؤدي إلى جودة عينات ضعيفة لأن توليد النصوص يتطلب الشرط على سلاسل كلمات قد لم يتم رصدها أثناء مرحلة التدريب. نقترح تحسين جودة العينات باستخدام شبكات المواجهة الجenerative (GANs)، والتي تقوم بتدريب المولد صراحةً لإنتاج عينات عالية الجودة وقد حققت نجاحًا كبيرًا في توليد الصور. تم تصميم GANs في الأصل لإخراج قيم قابلة للتفرقة، لذلك يعتبر توليد اللغة المتقطعة تحديًا لها. نؤكد أن الالتباس في التحقق بمفرده لا يشير إلى جودة النصوص التي ينتجها النموذج. نقدم شبكة GAN شرطية بنموذج ممثل-ناقد تقوم بتعبئة النصوص المفقودة مشروطة بالسياق المحيط بها. نقدم أدلة كمية ونوعية على أن هذا ينتج عينات نصية مشروطة وغير مشروطة أكثر واقعية مقارنة بنموذج تم تدريبه باستخدام الأرجحية القصوى.