Fokussierte hierarchische RNNs für bedingte Sequenzverarbeitung

Recurrent Neural Networks (RNNs) mit Aufmerksamkeitsmechanismen haben für viele sequenzielle Verarbeitungsaufgaben erstklassige Ergebnisse erzielt. Die meisten dieser Modelle verwenden eine einfache Form des Encoders mit Aufmerksamkeit, die über die gesamte Sequenz schaut und jedem Token unabhängig ein Gewicht zuordnet. In diesem Beitrag stellen wir einen Mechanismus vor, der es RNN-Encodern ermöglicht, sich bei sequenziellen Modellierungsaufgaben auf die entscheidenden Teile der Eingabe zu konzentrieren, wenn dies erforderlich ist. Wir formulieren dies mithilfe eines mehrschichtigen bedingten Sequenzencoders, der jeweils ein Token zur Verarbeitung aufnimmt und eine diskrete Entscheidung darüber trifft, ob das Token für den Kontext oder die gestellte Frage relevant ist. Der diskrete Gating-Mechanismus nimmt die Kontext-Embedding und den aktuellen Hidden State als Eingaben entgegen und steuert den Informationsfluss in die darüberliegende Schicht. Wir trainieren ihn unter Verwendung von Policy-Gradientenmethoden. Wir evaluieren diese Methode anhand verschiedener Aufgaben mit unterschiedlichen Eigenschaften. Zunächst evaluieren wir die Methode an synthetischen Aufgaben, um ihre Fähigkeit zur Generalisierung zu testen und das Verhalten der Gatter in kontrollierteren Umgebungen zu untersuchen. Anschließend evaluieren wir diesen Ansatz an großen Frage-Antwort-Aufgaben, darunter die anspruchsvollen MS MARCO- und SearchQA-Aufgaben. Unsere Modelle zeigen konsistente Verbesserungen sowohl bei diesen Aufgaben als auch im Vergleich zu früherer Arbeit und unseren Baselines. Sie haben auch erheblich bessere Generalisierungsfähigkeiten bei synthetischen Aufgaben gezeigt im Vergleich zu den Baselines.