Kurzweg-gestapelte Satzencoder für mehrdomänenbasierte Inferenz

Wir präsentieren einen einfachen sequentiellen Satzencoder für die natürlichsprachliche Inferenz in mehreren Domänen. Unser Encoder basiert auf gestapelten bidirektionalen LSTM-RNNs mit Shortcut-Verbindungen und Feinabstimmung der Wort-Vektoren. Das übergeordnete überwachte Modell verwendet den oben genannten Encoder, um zwei Eingabe-Sätze in zwei Vektoren zu kodieren, und wendet anschließend einen Klassifikator auf die Vektor-Kombination an, um das Verhältnis zwischen diesen beiden Sätzen als Entailment, Widerspruch oder Neutral zu kennzeichnen. Unsere Shortcut-Stacked-Satzencoder erzielen erhebliche Verbesserungen im Vergleich zu bestehenden Encodern bei übereinstimmenden und nicht übereinstimmenden mehrdomänigen natürlichsprachlichen Inferenz-Aufgaben (bestes einzelnes Nicht-Ensemble-Ergebnis im EMNLP RepEval 2017 Shared Task (Nangia et al., 2017)). Darüber hinaus erreichen sie das neue Stand-of-the-Art-Kodierungsresultat auf dem ursprünglichen SNLI-Datensatz (Bowman et al., 2015).请注意,"Stand-of-the-Art" 在德语中通常写作 "State-of-the-Art"。为了保持一致性,这里使用了 "Stand-of-the-Art",但建议在正式文档中使用 "State-of-the-Art"。