HyperAIHyperAI
vor 14 Tagen

Überwindung der Repräsentationsengpässe chinesischer Zeichen: Neural Machine Translation mit der Modellierung von Strichfolgen

Zhijun Wang, Xuebo Liu, Min Zhang
Überwindung der Repräsentationsengpässe chinesischer Zeichen: Neural Machine Translation mit der Modellierung von Strichfolgen
Abstract

Bisherige Forschung behandelt chinesische Zeichen in der Regel als最小 Einheit für die Repräsentation. Eine solche Repräsentation von chinesischen Zeichen stößt jedoch an zwei wesentliche Grenzen: 1) Lernbarkeitsgrenze – das Lernen kann nicht von den reichen internen Merkmalen der Zeichen profitieren (z. B. Radikale und Striche); und 2) Parametergrenze – jedes einzelne Zeichen muss durch einen eindeutigen Vektor repräsentiert werden. In diesem Artikel stellen wir eine neuartige Repräsentationsmethode für chinesische Zeichen vor, die diese Grenzen überwindet: StrokeNet. Diese Methode repräsentiert ein chinesisches Zeichen durch eine latinierte Strichsequenz (z. B. „ao1 (konkav)“ → „ajaie“ und „tu1 (konvex)“ → „aeaqe“). Konkret ordnet StrokeNet jedem Strich ein spezifisches lateinisches Zeichen zu, wodurch ähnliche chinesische Zeichen auch ähnliche lateinische Repräsentationen erhalten. Durch die Integration von StrokeNet in neuronale Maschinenübersetzung (NMT) können nun zahlreiche leistungsfähige, bisher jedoch nicht auf nicht-lateinische Sprachen anwendbare Techniken (z. B. gemeinsame Lernung von Subwort-Vokabularen und datenbasierte Augmentierung mittels Kryptotext) nahtlos realisiert werden. Experimente auf den weit verbreiteten NIST-Chinesisch-Englisch-, WMT17-Chinesisch-Englisch- und IWSLT17-Japanisch-Englisch-NMT-Aufgaben zeigen, dass StrokeNet gegenüber starken Baselines eine signifikante Leistungssteigerung erzielt, und zwar mit weniger Modellparametern. Auf der WMT17-Chinesisch-Englisch-Aufgabe erreicht StrokeNet eine BLEU-Score von 26,5 – dies ist besser als jeder bisher veröffentlichte Wert ohne Verwendung von monolingualen Daten. Der Quellcode und die Skripte sind frei verfügbar unter https://github.com/zjwang21/StrokeNet.

Überwindung der Repräsentationsengpässe chinesischer Zeichen: Neural Machine Translation mit der Modellierung von Strichfolgen | Neueste Forschungsarbeiten | HyperAI