Ein Mehrfachansatz für die Erkennung benannter Entitäten in Sozialen Medien Daten

Die Named-Entity-Erkennung (NER) für soziale Medien-Daten ist herausfordernd aufgrund ihrer inhärenten Rauschhaftigkeit. Neben fehlerhaften grammatikalischen Strukturen enthalten diese Daten orthographische Inkonsistenzen und zahlreiche informelle Abkürzungen. Wir schlagen einen neuen Multi-Task-Ansatz vor, bei dem eine allgemeinere sekundäre Aufgabe der Named-Entity-Segmentierung (NE-Segmentierung) zusammen mit der primären Aufgabe der detaillierten Kategorisierung von Named Entities (NE-Kategorisierung) eingesetzt wird. Die Multi-Task-Neuronale Netzwerkarchitektur lernt höhere Ordnungsmerkmalsrepräsentationen aus Wort- und Zeichensequenzen sowie grundlegenden Teil-der-Rede-Tags und Verzeichnisinformationen. Dieses neuronale Netzwerk fungiert als Merkmalsextraktor, um einem Conditional-Random-Fields-Klassifikator Daten zuzuführen. Wir konnten den ersten Platz im 3. Workshop on Noisy User-generated Text (WNUT-2017) belegen, wobei wir ein Entity-F1-Maß von 41,86 % und ein Surface-F1-Maß von 40,24 % erzielten.