Ein Actor-Critic-Algorithmus für Sequenzvorhersage

Wir präsentieren einen Ansatz zur Ausbildung von neuronalen Netzen zur Generierung von Sequenzen unter Verwendung von Schauspieler-Kritiker-Methoden aus dem Bereich des Reinforcement Learnings (RL). Die aktuellen Trainingsmethoden basierend auf der Log-Wahrscheinlichkeit sind durch die Diskrepanz zwischen ihren Trainings- und Testphasen begrenzt, da die Modelle Token generieren müssen, die auf ihren vorherigen Schätzungen und nicht auf den wahren Token konditioniert sind. Wir lösen dieses Problem, indem wir ein \textit{Kritiker}-Netzwerk einführen, das darauf trainiert wird, den Wert eines Ausgabetokens zu prognostizieren, gegeben die Strategie eines \textit{Schauspieler}-Netzwerks. Dies führt zu einem Trainingsverfahren, das viel näher an der Testphase liegt und es uns ermöglicht, direkt für eine taskspezifische Bewertung wie BLEU zu optimieren. Entscheidend ist dabei, dass wir diese Techniken im überwachten Lernszenario anstelle des traditionellen RL-Szenarios nutzen und das Kritiker-Netzwerk daher auf den wahren Ausgang konditionieren. Wir zeigen, dass unsere Methode sowohl bei einer synthetischen Aufgabe als auch bei der maschinellen Übersetzung von Deutsch nach Englisch zu besseren Leistungen führt. Unsere Analyse bahnt den Weg für die Anwendung solcher Methoden in natürlichsprachlichen Generierungsaufgaben wie maschineller Übersetzung, Bildunterschriftenerstellung und Dialogmodellierung.