LATTE: Lattice ATTentive Encoding für zeichenbasierte Wortsegmentierung

Eine Zeichenfolge umfasst mindestens eine oder mehrere Segmentierungsalternativen. Dies kann als Segmentierungsambiguität betrachtet werden und kann die Leistung der Wortsegmentierung beeinträchtigen. Die angemessene Behandlung solcher Ambiguität verringert unsichere Entscheidungen hinsichtlich Wortgrenzen. Frühere Arbeiten haben aufgrund der Fähigkeit des Lattices, Segmentierungsalternativen zu erfassen, sowie durch die Integration von graphbasierten und vortrainierten Modellen beachtliche Fortschritte bei der Segmentierung erzielt und das Ambiguitätsproblem gemildert. Dennoch werden in einem Lattice, das mit solchen Modellen kodiert ist, Informationen unterschiedlicher Granularität – einschließlich Zeichen- und Wortebene – möglicherweise nicht ausreichend berücksichtigt. Um die Darstellung mehrschaliger Informationen im Lattice zu stärken, schlagen wir die Lattice ATTentive Encoding (LATTE)-Methode für die zeichenbasierte Wortsegmentierung vor. Unser Modell nutzt die Lattice-Struktur, um Segmentierungsalternativen zu handhaben, und kombiniert Graph-Neuronale Netze mit einem Aufmerksamkeitsmechanismus, um gezielt mehrschalige Repräsentationen aus dem Lattice zu extrahieren, um die Zeichenrepräsentationen zu ergänzen. Unsere experimentellen Ergebnisse zeigen eine Verbesserung der Segmentierungsleistung auf den Datensätzen BCCWJ, CTB6 und BEST2010 in drei Sprachen, insbesondere für Japanisch, Chinesisch und Thai.