Dicht verbundene Aufmerksamkeitspropagierung für die Leseverständnis

Wir schlagen DecaProp (Densely Connected Attention Propagation) vor, eine neuartige, dicht verbundene neuronale Architektur für die Leseverstehensanalyse (Reading Comprehension, RC). Unser Modell zeichnet sich durch zwei auffällige Merkmale aus. Erstens verbindet unser Modell alle paarweisen Schichten des Netzwerks dicht miteinander, um Beziehungen zwischen Text und Frage auf allen hierarchischen Ebenen zu modellieren. Zweitens werden die dichten Verbindungen in unserem Netzwerk über Aufmerksamkeit gelernt, anstatt wie bei den üblichen Residual-Skip-Verbindungen. Zu diesem Zweck schlagen wir neue bidirektionale Aufmerksamkeitsverbindungen (Bidirectional Attention Connectors, BAC) vor, um effizient Verbindungen im gesamten Netzwerk herzustellen. Wir führen umfangreiche Experimente an vier anspruchsvollen Benchmarks für Leseverstehensanalyse durch. Unsere vorgeschlagene Methode erzielt den aktuellen Stand der Technik auf allen vier Benchmarks und übertrifft bestehende Baseline-Methoden um bis zu 2,6–14,2 % absoluter F1-Wert.