vor 17 Tagen

Mask Attention Networks: Transformer neu gedacht und verstärkt

Zhihao Fan, Yeyun Gong, Dayiheng Liu, Zhongyu Wei, Siyuan Wang, Jian Jiao, Nan Duan, Ruofei Zhang, Xuanjing Huang

Abstract

Der Transformer ist ein auf Aufmerksamkeit basierender neuronaler Netzwerktyp, der aus zwei Teilnetzwerken besteht: dem Self-Attention-Netzwerk (SAN) und dem Feed-Forward-Netzwerk (FFN). Bestehende Forschungsarbeiten untersuchen getrennt die Verbesserung dieser beiden Teilnetzwerke, um die Fähigkeit des Transformers zur Textrepräsentation zu steigern. In diesem Artikel präsentieren wir eine neuartige Interpretation von SAN und FFN als Mask-Attention-Netzwerke (MANs) und zeigen, dass sie zwei spezielle Fälle von MANs mit statischen Maskenmatrizen darstellen. Die statischen Maskenmatrizen beschränken jedoch ihre Fähigkeit, lokale Strukturen in der Textrepräsentationslernung zu modellieren. Um dies zu überwinden, führen wir eine neue Schicht namens dynamisches Mask-Attention-Netzwerk (DMAN) mit einer lernbaren Maskenmatrix ein, die die lokale Struktur adaptiv erfassen kann. Um die Vorteile von DMAN, SAN und FFN zu kombinieren, schlagen wir eine sequenzielle Schichtstruktur vor, die die drei Schichttypen integriert. Umfassende Experimente auf verschiedenen Aufgaben, darunter neuronale Maschinenübersetzung und Textzusammenfassung, zeigen, dass unser Modell den ursprünglichen Transformer übertrifft.