CAN-NER: Faltungsmerkmalbasiertes Aufmerksamkeitsnetzwerk für die Erkennung von benannten Entitäten im Chinesischen

Die Erkennung benannter Entitäten (NER) im Chinesischen ist essenziell, aber schwierig aufgrund des Mangels an natürlichen Trennzeichen. Deshalb wird die chinesische Wortsegmentierung (CWS) in der Regel als erster Schritt für die chinesische NER betrachtet. Allerdings leiden Modelle, die auf wortbasierten Einbettungen und lexikalischen Merkmalen basieren, oft unter Segmentierungsfehlern und Wörtern außerhalb des Vokabulars (OOV-Wörter). In dieser Arbeit untersuchen wir ein konvolutives Aufmerksamkeitsnetzwerk (CAN) für die chinesische NER, das aus einem zeichenbasierten Konvolutionsneuralen Netzwerk (CNN) mit lokaler Aufmerksamkeitsschicht und einer Gated Recurrent Unit (GRU) mit globaler Selbst-Aufmerksamkeitsschicht besteht, um Informationen von benachbarten Zeichen und Satzkontexten zu erfassen. Zudem zeigt sich im Vergleich zu anderen Modellen, dass unser Modell praktischer ist, da es nicht von externen Ressourcen wie Lexika abhängt und kleine Zeicheneinbettungen verwendet. Ausführliche experimentelle Ergebnisse belegen, dass unser Ansatz ohne Worteinbettungen und externe lexikalische Ressourcen auf verschiedenen Domänen-Datensätzen, einschließlich Weibo, MSRA und dem Datensatz für chinesische Lebenslauf-NER, den aktuellen Stand der Technik übertrifft.