Lernen, wann die Aufmerksamkeit konzentriert oder abgelenkt werden sollte: Selbstadaptives Aufmerksamkeitsniveau für neuronale Maschinelle Übersetzung

Die meisten Neuronalen Maschinellen Übersetzung (NMT) Modelle basieren auf dem sequenzbasierten Modell (Seq2Seq) mit einem Encoder-Decoder-Framework, das mit einem Aufmerksamkeitsmechanismus ausgestattet ist. Allerdings behandelt der konventionelle Aufmerksamkeitsmechanismus die Decodierung bei jedem Zeitpunkt gleichwertig durch die Verwendung derselben Matrix, was problematisch ist, da die Weichheit der Aufmerksamkeit für verschiedene Wortarten (z.B. Inhaltswörter und Funktionswörter) unterschiedlich sein sollte. Deshalb schlagen wir ein neues Modell vor, das einen Mechanismus namens Selbst-Adapterische Kontrolle der Temperatur (Self-Adaptive Control of Temperature, SACT) verwendet, um die Weichheit der Aufmerksamkeit mittels einer Aufmerksamkeitstemperatur zu steuern. Experimentelle Ergebnisse bei der Chinesisch-Englischen Übersetzung und der Englisch-Vietnamesischen Übersetzung zeigen, dass unser Modell den Baseline-Modellen überlegen ist. Die Analyse und Fallstudien belegen zudem, dass unser Modell sich auf die relevantesten Elemente im Quellkontext fokussieren kann und hochwertige Übersetzungen erzeugt.