HyperAIHyperAI

Command Palette

Search for a command to run...

MUSE: Parallele Multi-Skalen-Attention für Sequenz-zu-Sequenz-Lernverfahren

Guangxiang Zhao Xu Sun Jingjing Xu Zhiyuan Zhang Liangchen Luo

Zusammenfassung

Bei der Sequenz-zu-Sequenz-Lernung erweist sich die Self-Attention-Mechanismus als äußerst wirksam und führt zu signifikanten Verbesserungen bei vielen Aufgaben. Dennoch weist der Self-Attention-Mechanismus eigene Schwächen auf. Obwohl er extrem lange Abhängigkeiten modellieren kann, neigt die Aufmerksamkeit in tiefen Schichten dazu, sich übermäßig auf ein einzelnes Token zu konzentrieren, was zu einer unzureichenden Nutzung lokaler Informationen und Schwierigkeiten bei der Repräsentation langer Sequenzen führt. In dieser Arbeit untersuchen wir eine parallele mehrskalige Repräsentationslernmethode für Sequenzdaten mit dem Ziel, sowohl langreichweitige als auch kurzreichweitige Sprachstrukturen zu erfassen. Dazu schlagen wir den Parallel MUlti-Scale attEntion (MUSE) und MUSE-simple vor. MUSE-simple enthält die grundlegende Idee des parallelen mehrskaligen Sequenzrepräsentationslernens und kodiert die Sequenz parallel in verschiedenen Skalen mithilfe von Self-Attention und punktweisen Transformationen. MUSE baut auf MUSE-simple auf und untersucht die Kombination von Faltung und Self-Attention zur Lernung von Sequenzrepräsentationen über noch vielfältigere Skalen. Wir konzentrieren uns auf die maschinelle Übersetzung und erreichen mit dem vorgeschlagenen Ansatz erhebliche Leistungsverbesserungen gegenüber dem Transformer, insbesondere bei langen Sequenzen. Wichtiger noch: Wir stellen fest, dass, obwohl der Ansatz konzeptionell einfach ist, sein praktischer Erfolg fein abgestimmte Überlegungen erfordert, und dass die mehrskalige Aufmerksamkeit auf einem einheitlichen semantischen Raum aufbauen muss. Unter gängigen Einstellungen erreicht das vorgeschlagene Modell eine erhebliche Leistungssteigerung und schlägt alle vorherigen Modelle bei drei zentralen Aufgaben der maschinellen Übersetzung. Zudem weist MUSE aufgrund seiner Parallelität Potenzial zur Beschleunigung der Inferenz auf. Der Quellcode wird unter https://github.com/lancopku/MUSE verfügbar sein.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp