MaskGAN : Une meilleure génération de texte par le remplissage des ______

Les modèles de génération de texte neuronale sont souvent des modèles de langage autorégressifs ou des modèles seq2seq. Ces modèles génèrent du texte en échantillonnant les mots de manière séquentielle, chaque mot étant conditionné par le mot précédent, et ils représentent l'état de l'art pour plusieurs benchmarks de traduction automatique et de résumé. Ces benchmarks sont généralement définis par la perplexité de validation, bien que celle-ci ne soit pas une mesure directe de la qualité du texte généré. De plus, ces modèles sont généralement formés par maximisation de la vraisemblance et par forçage d'enseignement (teacher forcing). Ces méthodes sont bien adaptées à l'optimisation de la perplexité mais peuvent entraîner une mauvaise qualité des échantillons, car la génération de texte nécessite de conditionner les séquences de mots qui n'ont peut-être jamais été observées lors de l'entraînement. Nous proposons d'améliorer la qualité des échantillons en utilisant des Réseaux Antagonistes Générateurs (GANs), qui forment explicitement le générateur à produire des échantillons de haute qualité et ont montré beaucoup de succès dans la génération d'images. Les GANs ont été conçus à l'origine pour produire des valeurs différentiables, ce qui rend leur utilisation pour la génération linguistique discrète difficile. Nous affirmons que la perplexité de validation seule n'est pas indicative de la qualité du texte généré par un modèle. Nous introduisons un GAN conditionnel acteur-critique qui complète le texte manquant en se basant sur le contexte environnant. Nous présentons des preuves qualitatives et quantitatives indiquant que cela produit des échantillons textuels conditionnels et inconditionnels plus réalistes comparativement à un modèle formé par maximisation de la vraisemblance.