HyperAIHyperAI
vor einem Monat

Weniger Aufmerksamkeit mit leichten und dynamischen Faltungen

Felix Wu; Angela Fan; Alexei Baevski; Yann N. Dauphin; Michael Auli
Weniger Aufmerksamkeit mit leichten und dynamischen Faltungen
Abstract

Selbst-Aufmerksamkeit ist ein nützliches Mechanismus zur Erstellung von generativen Modellen für Sprache und Bilder. Sie bestimmt die Bedeutung von Kontextelementen, indem sie jedes Element mit dem aktuellen Zeitpunkt vergleicht. In dieser Arbeit zeigen wir, dass eine sehr leichte Faltung (convolution) wettbewerbsfähig zu den besten bisher veröffentlichten Ergebnissen der Selbst-Aufmerksamkeit sein kann. Anschließend stellen wir dynamische Faltungen vor, die einfacher und effizienter als Selbst-Aufmerksamkeit sind. Wir prognostizieren separate Faltungskerne ausschließlich auf Basis des aktuellen Zeitpunkts, um die Bedeutung von Kontextelementen zu bestimmen. Die Anzahl der Operationen, die dieser Ansatz erfordert, skaliert linear mit der Länge des Eingangs, während die Selbst-Aufmerksamkeit quadratisch skaliert. Experimente im Bereich der maschinellen Übersetzung großer Skala, Sprachmodellierung und abschließender Zusammenfassung zeigen, dass dynamische Faltungen starke Selbst-Aufmerksamkeitsmodelle verbessern. Bei dem Testset WMT'14 Englisch-Deutsch erreichen dynamische Faltungen einen neuen Stand der Technik von 29,7 BLEU.