Command Palette
Search for a command to run...
Mask Attention Networks: Transformer neu gedacht und verstärkt
Mask Attention Networks: Transformer neu gedacht und verstärkt
Zhihao Fan Yeyun Gong Dayiheng Liu Zhongyu Wei Siyuan Wang Jian Jiao Nan Duan Ruofei Zhang Xuanjing Huang
Zusammenfassung
Der Transformer ist ein auf Aufmerksamkeit basierender neuronaler Netzwerktyp, der aus zwei Teilnetzwerken besteht: dem Self-Attention-Netzwerk (SAN) und dem Feed-Forward-Netzwerk (FFN). Bestehende Forschungsarbeiten untersuchen getrennt die Verbesserung dieser beiden Teilnetzwerke, um die Fähigkeit des Transformers zur Textrepräsentation zu steigern. In diesem Artikel präsentieren wir eine neuartige Interpretation von SAN und FFN als Mask-Attention-Netzwerke (MANs) und zeigen, dass sie zwei spezielle Fälle von MANs mit statischen Maskenmatrizen darstellen. Die statischen Maskenmatrizen beschränken jedoch ihre Fähigkeit, lokale Strukturen in der Textrepräsentationslernung zu modellieren. Um dies zu überwinden, führen wir eine neue Schicht namens dynamisches Mask-Attention-Netzwerk (DMAN) mit einer lernbaren Maskenmatrix ein, die die lokale Struktur adaptiv erfassen kann. Um die Vorteile von DMAN, SAN und FFN zu kombinieren, schlagen wir eine sequenzielle Schichtstruktur vor, die die drei Schichttypen integriert. Umfassende Experimente auf verschiedenen Aufgaben, darunter neuronale Maschinenübersetzung und Textzusammenfassung, zeigen, dass unser Modell den ursprünglichen Transformer übertrifft.