vor 2 Monaten

Kann aktives Gedächtnis die Aufmerksamkeit ersetzen?

Łukasz Kaiser; Samy Bengio

Abstract

In den letzten Jahren wurden mehrere Mechanismen zur Fokussierung der Aufmerksamkeit eines neuronalen Netzes auf ausgewählte Teile seiner Eingabe oder seines Gedächtnisses erfolgreich in tiefen Lernmodellen eingesetzt. Die Aufmerksamkeitsmechanismen haben die Bildklassifizierung, die Bildunterschriftenerstellung, die Spracherkennung, generative Modelle und algorithmische Lernaufgaben verbessert, aber sie hatten wahrscheinlich den größten Einfluss auf die neuronale maschinelle Übersetzung.Kürzlich wurden ähnliche Verbesserungen durch alternative Mechanismen erzielt, die sich nicht auf einen einzelnen Teil des Gedächtnisses konzentrieren, sondern gleichmäßig parallel auf das gesamte Gedächtnis operieren. Solche Mechanismen, die wir als aktives Gedächtnis bezeichnen, übertrafen die Aufmerksamkeitsmechanismen in algorithmischen Aufgaben, Bildverarbeitung und generativen Modellen.Bisher hat jedoch aktives Gedächtnis für die meisten natursprachlichen Verarbeitungsaufgaben, insbesondere für maschinelle Übersetzung, keine Verbesserungen gegenüber der Aufmerksamkeit gebracht. In dieser Arbeit analysieren wir diesen Nachteil und schlagen ein erweitertes Modell des aktiven Gedächtnisses vor, das existierenden Aufmerksamkeitsmodellen bei der neuronalen maschinellen Übersetzung ebenbürtig ist und sich besser auf längere Sätze verallgemeinert. Wir untersuchen dieses Modell und erklären, warum frühere Modelle des aktiven Gedächtnisses nicht erfolgreich waren. Schließlich diskutieren wir, wann aktives Gedächtnis am meisten Vorteile bringt und wo Aufmerksamkeit eine bessere Wahl sein kann.