HyperAIHyperAI

Command Palette

Search for a command to run...

Pervasive Attention: 2D Faltungsneuronale Netze für Sequenz-zu-Sequenz-Vorhersage

Maha Elbayad Laurent Besacier Jakob Verbeek

Zusammenfassung

Der aktuelle Stand der Technik bei maschinellen Übersetzungssystemen basiert auf Encoder-Decoder-Architekturen, die zunächst die Eingabe-Sequenz kodieren und dann eine Ausgabe-Sequenz auf Basis der Eingabekodierung generieren. Beide Komponenten sind mit einem Aufmerksamkeitsmechanismus (attention mechanism) verbunden, der eine feste Kodierung der Quelltokens nach dem Zustand des Decoders rekombiniert. Wir schlagen einen alternativen Ansatz vor, der stattdessen ein einziges 2D-Faltungsneuronales Netzwerk über beide Sequenzen verwendet. Jede Schicht unseres Netzes kodiert die Quelltokens neu auf Basis der bisher erzeugten Ausgabe-Sequenz. Aufmerksamkeitsähnliche Eigenschaften sind daher im gesamten Netzwerk weit verbreitet. Unser Modell erzielt ausgezeichnete Ergebnisse und übertrifft die Leistung der besten Encoder-Decoder-Systeme, während es konzeptionell einfacher ist und weniger Parameter hat.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp