HyperAIHyperAI
vor 2 Monaten

SeqGAN: Sequenzgenerierende adversarische Netze mit Policy-Gradienten

Lantao Yu; Weinan Zhang; Jun Wang; Yong Yu
SeqGAN: Sequenzgenerierende adversarische Netze mit Policy-Gradienten
Abstract

Als neue Methode zur Ausbildung von generativen Modellen haben Generative Adversarial Nets (GANs), die ein diskriminatives Modell zur Steuerung der Ausbildung des generativen Modells verwenden, erheblichen Erfolg bei der Erzeugung von reellwertigen Daten verzeichnet. Allerdings zeigen sie Einschränkungen, wenn das Ziel die Erzeugung von Sequenzen diskreter Token ist. Ein wesentlicher Grund dafür liegt darin, dass die diskreten Ausgaben des generativen Modells es schwierig machen, den Gradientenupdate vom diskriminativen Modell auf das generative Modell zu übertragen. Zudem kann das diskriminative Modell nur vollständige Sequenzen bewerten; für teilweise erzeugte Sequenzen ist es nicht trivial, den aktuellen Score und den zukünftigen Score zu balancieren, sobald die gesamte Sequenz erzeugt wurde. In dieser Arbeit schlagen wir einen sequentiellen Generierungsrahmen vor, der als SeqGAN bezeichnet wird, um diese Probleme zu lösen. Durch Modellierung des Datengenerators als stochastische Politik im Reinforcement Learning (RL) umgeht SeqGAN das Problem der Differenzierbarkeit des Generators durch direkte Gradienten-Politik-Updates. Das Reward-Signal aus dem RL stammt vom GAN-Diskriminator, der eine vollständige Sequenz bewertet, und wird zurück an die Zwischenzustände-Aktionschritte mittels Monte-Carlo-Suche übertragen. Umfangreiche Experimente mit synthetischen Daten und realen Aufgaben zeigen erhebliche Verbesserungen gegenüber starken Baselines.