vor 2 Monaten

Beschleunigung des neuronalen Transformers durch ein Netzwerk mit durchschnittlicher Aufmerksamkeit

Biao Zhang; Deyi Xiong; Jinsong Su

Abstract

Mit parallelisierbaren Aufmerksamkeitsnetzwerken ist der neuronale Transformer sehr schnell zu trainieren. Allerdings wird das Decodierverfahren aufgrund der auto-regressiven Architektur und der Selbst-Aufmerksamkeit im Decoder langsamer. Um dieses Problem zu lindern, schlagen wir ein durchschnittliches Aufmerksamkeitsnetzwerk vor, das als Alternative zum Selbst-Aufmerksamkeitsnetzwerk im Decoder des neuronalen Transformers dienen soll. Das durchschnittliche Aufmerksamkeitsnetzwerk besteht aus zwei Schichten: einer Durchschnittsschicht, die Abhängigkeiten von früheren Positionen modelliert, und einer Gatingschicht, die über der Durchschnittsschicht gestapelt wird, um die Ausdrucksstärke des vorgeschlagenen Aufmerksamkeitsnetzwerks zu erhöhen. Wir wenden dieses Netzwerk auf den Decoder-Teil des neuronalen Transformers an, um das ursprüngliche Ziel-Seiten-Selbst-Aufmerksamkeitsmodell zu ersetzen. Durch Maskierungstricks und dynamische Programmierung ermöglicht unser Modell es dem neuronalen Transformer, Sätze mehr als viermal schneller zu decodieren als die ursprüngliche Version, wobei die Trainingszeit und die Übersetzungsleistung praktisch nicht beeinträchtigt werden. Wir führen eine Reihe von Experimenten für die Übersetzungsaufgaben des Workshops on Machine Translation (WMT) 2017 durch, bei denen wir bei sechs verschiedenen Sprachpaaren robuste und konsistente Beschleunigungen beim Decodieren erzielen.