Cell-aware Stacked LSTMs für die Modellierung von Sätzen

Wir schlagen eine Methode vor, mehrere Long Short-Term Memory (LSTM)-Schichten zu stapeln, um Sätze zu modellieren. Im Gegensatz zu den konventionellen gestapelten LSTMs, bei denen nur die versteckten Zustände als Eingabe für die nächste Schicht verwendet werden, akzeptiert die vorgeschlagene Architektur sowohl die versteckten als auch die Zellzustände der vorherigen Schicht und fusioniert Informationen aus dem linken und unteren Kontext mithilfe des Soft-Gating-Mechanismus von LSTMs. Somit moduliert die Architektur nicht nur den Informationsfluss in horizontaler Rekurrenz, sondern auch in vertikalen Verbindungen, wodurch nützliche Merkmale, die in den unteren Schichten extrahiert wurden, effektiv an obere Schichten weitergegeben werden. Wir bezeichnen diese Architektur als Cell-aware Stacked LSTM (CAS-LSTM) und zeigen durch Experimente, dass unsere Modelle auf Benchmark-Datensätzen für natürliche Sprachinferenz, Paraphrasenerkennung, Sentiment-Klassifizierung und maschinelle Übersetzung erhebliche Leistungsverbesserungen gegenüber den Standard-LSTMs erzielen. Des Weiteren führen wir eine umfangreiche qualitative Analyse durch, um das interne Verhalten des vorgeschlagenen Ansatzes zu verstehen.