SeqGAN : Réseaux de Génération Adversaire de Séquences avec Gradient de Politique

En tant que nouvelle méthode d'entraînement des modèles génératifs, les Réseaux de Neurones Générateurs Adverses (GAN) qui utilisent un modèle discriminatif pour guider l'entraînement du modèle générateur ont connu un succès considérable dans la génération de données à valeurs réelles. Cependant, ils présentent des limitations lorsqu'il s'agit de générer des séquences de jetons discrets. Une raison majeure est que les sorties discrètes du modèle générateur rendent difficile la transmission de la mise à jour du gradient du modèle discriminatif au modèle générateur. De plus, le modèle discriminatif ne peut évaluer qu'une séquence complète, tandis que pour une séquence partiellement générée, il n'est pas trivial d'équilibrer sa note actuelle et celle qui sera attribuée une fois que la séquence entière aura été générée. Dans cet article, nous proposons un cadre de génération de séquences appelé SeqGAN pour résoudre ces problèmes. En modélisant le générateur de données comme une politique stochastique en apprentissage par renforcement (RL), SeqGAN contourne le problème de différentiation du générateur en effectuant directement une mise à jour de gradient basée sur la politique. Le signal de récompense RL provient du discriminateur GAN qui juge une séquence complète et est transmis aux étapes intermédiaires d'état-action en utilisant une recherche Monte Carlo. Des expériences approfondies sur des données synthétiques et des tâches réelles montrent des améliorations significatives par rapport aux méthodes de référence solides.