Sequenz-zu-Sequenz-Lernen mit neuronalen Netzen

Tiefe Neuronale Netze (DNNs) sind leistungsstarke Modelle, die auf schwierigen Lernaufgaben ausgezeichnete Ergebnisse erzielt haben. Obwohl DNNs gut funktionieren, wann immer große annotierte Trainingsdatensätze verfügbar sind, können sie nicht verwendet werden, um Sequenzen auf Sequenzen abzubilden. In dieser Arbeit präsentieren wir einen allgemeinen End-to-End-Ansatz für sequenzbasiertes Lernen, der minimale Annahmen über die Sequenzstruktur macht. Unsere Methode verwendet ein mehrschichtiges Long Short-Term Memory (LSTM)-Netzwerk, um die Eingangsequenz in einen Vektor fester Dimensionalität abzubilden, und dann ein weiteres tiefes LSTM-Netzwerk, um die Zielsequenz aus diesem Vektor zu dekodieren.Unser Hauptergebnis ist, dass bei einer ÜbersetzungsAufgabe von Englisch nach Französisch mit dem WMT'14-Datensatz die Übersetzungen des LSTM eine BLEU-Score von 34,8 auf dem gesamten Testset erreichen, wobei der BLEU-Score des LSTM auf Wörter außerhalb des Wortschatzes (out-of-vocabulary words) sanktioniert wurde. Zudem hatte das LSTM keine Schwierigkeiten mit langen Sätzen. Zum Vergleich erreicht ein phrasenbasierter statistischer Maschinentranslationsystem (SMT) auf demselben Datensatz einen BLEU-Score von 33,3. Wenn wir das LSTM verwenden, um die 1000 Hypothesen des oben genannten SMT-Systems neu zu sortieren (rerank), steigt dessen BLEU-Score auf 36,5, was nahe am bisher besten Ergebnis für diese Aufgabe liegt.Das LSTM hat zudem sinnvolle Phrasen- und Satzrepräsentationen gelernt, die empfindlich gegenüber der Wortreihenfolge sind und relativ unveränderlich bleiben, ob im Aktiv oder Passiv gebraucht (active and passive voice). Schließlich stellten wir fest, dass das Umkehren der Reihenfolge aller Quellsätze (aber nicht der Zielsätze) die Leistung des LSTM deutlich verbesserte. Dies geschah dadurch, dass es viele kurzfristige Abhängigkeiten zwischen den Quell- und Zielsätzen einführt, was das Optimierungsproblem vereinfachte.