Distanzbasierendes Selbst-Aufmerksamkeitsnetzwerk für natürliche Sprachinferenz

Die Aufmerksamkeitsmechanismen wurden bisher als ergänzendes Mittel zur Unterstützung von RNNs oder CNNs eingesetzt. Der Transformer (Vaswani et al., 2017) hat jedoch kürzlich durch die ausschließliche Verwendung von Aufmerksamkeit den aktuellen Stand der Technik in maschinellen Übersetzungen erzielt und gleichzeitig die Trainingszeit drastisch reduziert. Angeregt durch den Erfolg des Transformers wurde das Directional Self Attention Network (Shen et al., 2017) vorgeschlagen, ein vollständig aufmerksamkeitsbasierter Satzencoder, der durch die Verwendung vorwärts- und rückwärtsgerichteter Informationen in einem Satz gute Leistungen bei verschiedenen Daten zeigte. In ihrer Studie wurde jedoch der Abstand zwischen Wörtern, eine wichtige Eigenschaft beim Lernen lokaler Abhängigkeiten, um das Verständnis des Kontexts des Eingabetexts zu unterstützen, überhaupt nicht berücksichtigt. Wir schlagen das Distance-based Self-Attention Network vor, das den Wortabstand durch die Verwendung einer einfachen Distanzmاسك (distance mask) berücksichtigt, um lokale Abhängigkeiten zu modellieren, ohne dabei die Fähigkeit zur Modellierung globaler Abhängigkeiten zu verlieren, die dem Aufmerksamkeitsmechanismus inhärent ist. Unser Modell zeigt gute Leistungen mit NLI-Daten und erzielt mit SNLI-Daten ein neues Spitzenergebnis. Zudem zeigen wir, dass unser Modell in langen Sätzen oder Dokumenten besonders stark ist.