vor 2 Monaten

Sequence-to-Sequence-Lernen als Strahlensuche-Optimierung

Sam Wiseman; Alexander M. Rush

Abstract

Sequence-to-Sequence (seq2seq)-Modellierung hat sich rasch zu einem wichtigen allgemeinen NLP-Werkzeug entwickelt, das für viele Textgenerierungs- und Sequenzetikettierungsaufgaben effektiv erwiesen hat. Seq2seq basiert auf tiefen neuronalen Sprachmodellen und übernimmt deren bemerkenswerte Genauigkeit bei der Schätzung lokaler, nacheinander auftretender Wortverteilungen. In dieser Arbeit stellen wir ein Modell und einen Strahlensuchtrainingsansatz vor, der auf den Arbeiten von Daume III und Marcu (2005) basiert und seq2seq erweitert, um globale Sequenzbewertungen zu lernen. Dieser strukturierte Ansatz vermeidet klassische Verzerrungen, die mit lokalem Training verbunden sind, vereint den Trainingsverlust mit der Testzeitnutzung und behält gleichzeitig die bewährte Architektur des seq2seq-Modells sowie dessen effizienten Trainingsansatz bei. Wir zeigen, dass unser System in drei verschiedenen Sequenz-zu-Sequenz-Aufgaben – Wortreihenfolge, Parsing und maschinelle Übersetzung – einem hochoptimierten aufmerksamkeitsbasierten seq2seq-System以及其他基准方法（其他基准方法）优于其他基准方法。请注意，最后一句中的“以及其他基准方法”在德语中可以翻译为“sowie anderen Baseline-Methoden”，以确保句子的流畅性和完整性。因此，完整的翻译如下：Wir zeigen, dass unser System in drei verschiedenen Sequenz-zu-Sequenz-Aufgaben – Wortreihenfolge, Parsing und maschinelle Übersetzung – einem hochoptimierten aufmerksamkeitsbasierten seq2seq-System sowie anderen Baseline-Methoden überlegen ist.