Modellierung von Rauschen zur Erkennung benannter Entitäten unter Verwendung von Multitask-Neuralnetzen in sozialen Medien

Die Erkennung benannter Entitäten in einem Dokument ist eine zentrale Aufgabe in vielen Anwendungen der natürlichsprachlichen Verarbeitung (NLP). Obwohl die aktuellen Standesderkunst-Ansätze für diese Aufgabe bei sauberen Texten (z.B. Nachrichtenstilen) eine hohe Leistung erzielen, verschlechtern sich diese Algorithmen erheblich, wenn sie in störanfällige Umgebungen wie soziale Medien-Domains verlegt werden. Wir stellen zwei Systeme vor, die die Herausforderungen der Verarbeitung von Daten aus sozialen Medien mittels charakterbasierter Phonetik und Phonologie, Wort-Vektoren (Word Embeddings) und Teilkennzeichnungen (Part-of-Speech Tags) als Merkmale angehen. Das erste Modell ist ein Multitasking-End-to-End-Bidirektionaler Langzeit-Short-Term-Memory (BLSTM)-Bedingtes Zufallsfeld (CRF)-Netzwerk, dessen Ausgabeschicht zwei CRF-Klassifizierer enthält. Das zweite Modell verwendet ein Multitasking-BLSTM-Netzwerk als Merkmalsextraktor, das das Lernen an einen CRF-Klassifizierer überträgt, um die endgültige Vorhersage zu treffen. Unsere Systeme übertreffen die aktuellen F1-Werte des Standes der Technik auf dem Datensatz des Workshops für störanfälligen Nutzergenerierten Text 2017 um 2,45 % und 3,69 % und etablieren somit einen geeigneteren Ansatz für soziale Medien-Umgebungen.