HyperAIHyperAI
vor 2 Monaten

Pervasive Attention: 2D Faltungsneuronale Netze für Sequenz-zu-Sequenz-Vorhersage

Maha Elbayad; Laurent Besacier; Jakob Verbeek
Pervasive Attention: 2D Faltungsneuronale Netze für Sequenz-zu-Sequenz-Vorhersage
Abstract

Der aktuelle Stand der Technik bei maschinellen Übersetzungssystemen basiert auf Encoder-Decoder-Architekturen, die zunächst die Eingabe-Sequenz kodieren und dann eine Ausgabe-Sequenz auf Basis der Eingabekodierung generieren. Beide Komponenten sind mit einem Aufmerksamkeitsmechanismus (attention mechanism) verbunden, der eine feste Kodierung der Quelltokens nach dem Zustand des Decoders rekombiniert. Wir schlagen einen alternativen Ansatz vor, der stattdessen ein einziges 2D-Faltungsneuronales Netzwerk über beide Sequenzen verwendet. Jede Schicht unseres Netzes kodiert die Quelltokens neu auf Basis der bisher erzeugten Ausgabe-Sequenz. Aufmerksamkeitsähnliche Eigenschaften sind daher im gesamten Netzwerk weit verbreitet. Unser Modell erzielt ausgezeichnete Ergebnisse und übertrifft die Leistung der besten Encoder-Decoder-Systeme, während es konzeptionell einfacher ist und weniger Parameter hat.