HyperAIHyperAI

Command Palette

Search for a command to run...

Gemeinsame Quell-Ziel-Selbstaufmerksamkeit mit Lokalitätsrestriktionen

José A. R. Fonollosa; Noe Casas; Marta R. Costa-jussà

Zusammenfassung

Die vorherrschenden neuronalen Maschinentranslationsmodelle basieren auf der Encoder-Decoder-Struktur, und viele davon stützen sich auf ein unbeschränktes Rezeptivfeld über die Quell- und Zielsequenzen. In dieser Arbeit untersuchen wir eine neue Architektur, die mit beiden Konventionen bricht. Unsere vereinfachte Architektur besteht aus dem Decoder-Teil eines Transformer-Modells, das auf Selbst-Aufmerksamkeit (self-attention) basiert, jedoch mit Lokalitätsrestriktionen im Aufmerksamkeitsrezeptivfeld. Als Trainingsinput werden sowohl die Quell- als auch die Zielsätze dem Netzwerk zugeführt, das als Sprachmodell trainiert wird. Bei der Inferenz werden die Zieldtokens autoregressiv vorhergesagt, wobei die Quellsequenz als vorherige Tokens verwendet wird. Das vorgeschlagene Modell erreicht einen neuen Stand der Technik von 35,7 BLEU auf IWSLT'14 Deutsch-Englisch und entspricht den besten in der Literatur gemeldeten Ergebnissen bei den Übersetzungsbenchmarks WMT'14 Englisch-Deutsch und WMT'14 Englisch-Französisch.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp