HyperAIHyperAI

Command Palette

Search for a command to run...

Mask Attention Networks: Transformer neu gedacht und verstärkt

Zhihao Fan Yeyun Gong Dayiheng Liu Zhongyu Wei Siyuan Wang Jian Jiao Nan Duan Ruofei Zhang Xuanjing Huang

Zusammenfassung

Der Transformer ist ein auf Aufmerksamkeit basierender neuronaler Netzwerktyp, der aus zwei Teilnetzwerken besteht: dem Self-Attention-Netzwerk (SAN) und dem Feed-Forward-Netzwerk (FFN). Bestehende Forschungsarbeiten untersuchen getrennt die Verbesserung dieser beiden Teilnetzwerke, um die Fähigkeit des Transformers zur Textrepräsentation zu steigern. In diesem Artikel präsentieren wir eine neuartige Interpretation von SAN und FFN als Mask-Attention-Netzwerke (MANs) und zeigen, dass sie zwei spezielle Fälle von MANs mit statischen Maskenmatrizen darstellen. Die statischen Maskenmatrizen beschränken jedoch ihre Fähigkeit, lokale Strukturen in der Textrepräsentationslernung zu modellieren. Um dies zu überwinden, führen wir eine neue Schicht namens dynamisches Mask-Attention-Netzwerk (DMAN) mit einer lernbaren Maskenmatrix ein, die die lokale Struktur adaptiv erfassen kann. Um die Vorteile von DMAN, SAN und FFN zu kombinieren, schlagen wir eine sequenzielle Schichtstruktur vor, die die drei Schichttypen integriert. Umfassende Experimente auf verschiedenen Aufgaben, darunter neuronale Maschinenübersetzung und Textzusammenfassung, zeigen, dass unser Modell den ursprünglichen Transformer übertrifft.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp