vor 2 Monaten

Klassische strukturierte Verlustfunktionen für Sequenz-zu-Sequenz-Lernen

Sergey Edunov; Myle Ott; Michael Auli; David Grangier; Marc'Aurelio Ranzato

Abstract

In letzter Zeit wurden zahlreiche Arbeiten zur Schulung von neuronalen Aufmerksamkeitsmodellen auf Sequenzebene durchgeführt, wobei entweder Methoden im Stil des Verstärkungslernens oder die Optimierung des Strahls verwendet wurden. In dieser Arbeit untersuchen wir eine Reihe klassischer Zielfunktionen, die weit verbreitet zur Schulung linearer Modelle für strukturierte Vorhersage eingesetzt werden, und wenden sie auf neuronale Sequenz-zu-Sequenz-Modelle an. Unsere Experimente zeigen, dass diese Verlustfunktionen überraschend gut abschneiden und in einem vergleichbaren Setup leicht besser als die Strahl-Suchoptimierung performieren. Wir berichten außerdem über neue Stand der Technik-Ergebnisse sowohl bei der IWSLT'14 Deutsch-Englisch-Übersetzung als auch bei der abstraktiven Zusammenfassung des Gigaword-Korpus. Bei der größeren WMT'14 Englisch-Französisch-Übersetzaufgabe erreicht die sequenzbasierte Schulung einen BLEU-Wert von 41,5, was dem aktuellen Stand der Technik entspricht.