MaskGAN: Bessere Textgenerierung durch das Ausfüllen von ______

Neuronale Textgenerierungsmodelle sind häufig autoregressive Sprachmodelle oder seq2seq-Modelle. Diese Modelle generieren Text durch sequenzielles Abtasten von Wörtern, wobei jedes Wort unter Berücksichtigung des vorherigen Worts bedingt ist, und stellen den aktuellen Stand der Technik für mehrere Maschinelle-Übersetzungsbenchmarktests und -Zusammenfassungen dar. Diese Benchmarks werden oft anhand der Validierungsperplexität definiert, obwohl dies kein direktes Maß für die Qualität des generierten Textes ist. Zudem werden diese Modelle in der Regel durch Maximum-Likelihood-Schätzung und Lehrerzwang trainiert. Diese Methoden eignen sich gut zur Optimierung der Perplexität, können jedoch zu einer schlechten Stichprobenqualität führen, da die Textgenerierung auf Wortsequenzen konditioniert sein muss, die während des Trainings möglicherweise nie beobachtet wurden. Wir schlagen vor, die Stichprobenqualität mittels Generativer Kontrastnetze (Generative Adversarial Networks, GANs) zu verbessern, die den Generator explizit dazu ausbilden, hochwertige Stichproben zu erzeugen und bei der Bildgenerierung bereits viel Erfolg gezeigt haben. GANs wurden ursprünglich so entworfen, dass sie differenzierbare Werte liefern; daher stellt die diskrete Sprachgenerierung eine Herausforderung für sie dar. Wir behaupten, dass allein die Validierungsperplexität nicht aussagekräftig ist für die Qualität des vom Modell generierten Textes. Wir stellen ein Schauspieler-Kritiker-bedingtes GAN vor, das fehlenden Text unter Berücksichtigung des umgebenden Kontexts ergänzt. Qualitativ und quantitativ zeigen wir Beweise dafür, dass dieses Modell realistischere bedingte und unbedingte Textstichproben erzeugt als ein durch Maximum-Likelihood-Schätzung trainiertes Modell.