Skip-Thought Vektoren

Wir beschreiben einen Ansatz für das unüberwachte Lernen eines generischen, verteilten Satzencoders. Unter Verwendung der Kontinuität von Texten aus Büchern trainieren wir ein Encoder-Decoder-Modell, das versucht, die umliegenden Sätze eines kodierten Passages zu rekonstruieren. Sätze, die semantische und syntaktische Eigenschaften teilen, werden somit ähnlichen Vektordarstellungen zugeordnet. Im nächsten Schritt führen wir eine einfache Vokabularerweiterungsmethode ein, um Wörter zu kodieren, die während des Trainings nicht gesehen wurden. Dies ermöglicht es uns, unser Wortschatz auf eine Million Wörter zu erweitern. Nach dem Training unseres Modells extrahieren und evaluieren wir unsere Vektoren mit linearen Modellen anhand von 8 Aufgaben: semantische Verwandtschaft, Paraphrasenerkennung, Bild-Satz-Ranking, Frage-Typ-Klassifizierung sowie vier Benchmark-Datensätze für Stimmungs- und Subjektivitätserkennung. Das Endresultat ist ein fertig zum Einsatz bereiter Encoder, der hochgenerische Satzdarsellungen erzeugen kann, die robust sind und in der Praxis gut abschneiden. Wir werden unseren Encoder öffentlich zugänglich machen.请注意,这里有一些小的调整以适应德语的表达习惯,例如“umliegenden Sätze eines kodierten Passages”中的“Passages”被改为“Passage”,以及“Satzdarsellungen”应该是“Satzdarstellungen”。此外,“Stimmungs- und Subjektivitätserkennung”中的连字符是为了符合德语复合词的书写规则。