MUSE: Parallele Multi-Skalen-Attention für Sequenz-zu-Sequenz-Lernverfahren

Bei der Sequenz-zu-Sequenz-Lernung erweist sich die Self-Attention-Mechanismus als äußerst wirksam und führt zu signifikanten Verbesserungen bei vielen Aufgaben. Dennoch weist der Self-Attention-Mechanismus eigene Schwächen auf. Obwohl er extrem lange Abhängigkeiten modellieren kann, neigt die Aufmerksamkeit in tiefen Schichten dazu, sich übermäßig auf ein einzelnes Token zu konzentrieren, was zu einer unzureichenden Nutzung lokaler Informationen und Schwierigkeiten bei der Repräsentation langer Sequenzen führt. In dieser Arbeit untersuchen wir eine parallele mehrskalige Repräsentationslernmethode für Sequenzdaten mit dem Ziel, sowohl langreichweitige als auch kurzreichweitige Sprachstrukturen zu erfassen. Dazu schlagen wir den Parallel MUlti-Scale attEntion (MUSE) und MUSE-simple vor. MUSE-simple enthält die grundlegende Idee des parallelen mehrskaligen Sequenzrepräsentationslernens und kodiert die Sequenz parallel in verschiedenen Skalen mithilfe von Self-Attention und punktweisen Transformationen. MUSE baut auf MUSE-simple auf und untersucht die Kombination von Faltung und Self-Attention zur Lernung von Sequenzrepräsentationen über noch vielfältigere Skalen. Wir konzentrieren uns auf die maschinelle Übersetzung und erreichen mit dem vorgeschlagenen Ansatz erhebliche Leistungsverbesserungen gegenüber dem Transformer, insbesondere bei langen Sequenzen. Wichtiger noch: Wir stellen fest, dass, obwohl der Ansatz konzeptionell einfach ist, sein praktischer Erfolg fein abgestimmte Überlegungen erfordert, und dass die mehrskalige Aufmerksamkeit auf einem einheitlichen semantischen Raum aufbauen muss. Unter gängigen Einstellungen erreicht das vorgeschlagene Modell eine erhebliche Leistungssteigerung und schlägt alle vorherigen Modelle bei drei zentralen Aufgaben der maschinellen Übersetzung. Zudem weist MUSE aufgrund seiner Parallelität Potenzial zur Beschleunigung der Inferenz auf. Der Quellcode wird unter https://github.com/lancopku/MUSE verfügbar sein.