Namensentitätenerkennung für soziale Medien-Texte mit semantischer Erweiterung

Bestehende Ansätze zur Namensentitätserkennung (Named Entity Recognition, NER) leiden unter Daten-Sparsity-Problemen, wenn sie auf kurzen und informellen Texten, insbesondere benutzererzeugtem Inhalt aus sozialen Medien, angewendet werden. Die semantische Erweiterung (Semantic Augmentation) stellt eine vielversprechende Möglichkeit dar, dieses Problem zu mildern. Da in vortrainierten Wort-Embeddings reichhaltige semantische Informationen implizit gespeichert sind, stellen sie potenziell ideale Ressourcen für die semantische Erweiterung dar. In diesem Artikel präsentieren wir einen neuronalen Ansatz zur NER für soziale Medien-Texte, bei dem sowohl lokale (aus dem laufenden Text stammende) als auch erweiterte Semantik berücksichtigt werden. Insbesondere gewinnen wir die erweiterte semantische Information aus einem großskaligen Korpus und schlagen ein aufmerksamkeitsbasiertes Modul zur semantischen Erweiterung sowie ein Gatemodul zur Kodierung und Aggregation dieser Information vor. Umfassende Experimente wurden auf drei Benchmark-Datensätzen durchgeführt, die aus englischen und chinesischen sozialen Medienplattformen stammen. Die Ergebnisse belegen die Überlegenheit unseres Ansatzes gegenüber früheren Studien auf allen drei Datensätzen.