vor 2 Monaten

Aufmerksamkeitsverstärktes sequentielles Inferenzmodell

Guanyu Li; Pengfei Zhang; Caiyan Jia

Abstract

Die Aufmerksamkeitsmechanismen (attention mechanisms) haben sich bei der Verarbeitung natürlicher Sprache (natural language processing) als effektiv erwiesen. In dieser Arbeit wird ein durch Aufmerksamkeit gesteigertes Modell für die Inferenz natürlicher Sprache vorgeschlagen, das aESIM genannt wird. Dies geschieht durch Hinzufügen von Wortaufmerksamkeit (word attention) und adaptiven, richtungsorientierten Aufmerksamkeitsmechanismen (adaptive direction-oriented attention mechanisms) zur traditionellen Bi-LSTM-Schicht (Bi-LSTM layer) von Inferenzmodellen für natürliche Sprache, wie z.B. ESIM. Dadurch verfügt das Inferenzmodell aESIM über die Fähigkeit, die Darstellung von Wörtern effektiv zu lernen und lokale inferentielle Beziehungen zwischen Paaren von Prämisse und Hypothese zu modellieren. Empirische Studien an den Benchmarks SNLI, MultiNLI und Quora zeigen, dass aESIM dem ursprünglichen ESIM-Modell überlegen ist.