Alibaba am IJCNLP-2017 Task 1: Einbetten grammatischer Merkmale in LSTMs für die Aufgabe der chinesischen grammatischen Fehlerdiagnose

Diese Arbeit stellt das System der Alibaba NLP-Gruppe für die gemeinsame Aufgabe Nr. 1 des IJCNLP 2017, die chinesische grammatische Fehlerdiagnose (CGED), vor. Die Aufgabe besteht darin, vier Arten grammatischer Fehler zu erkennen: überflüssige Wörter (R), fehlende Wörter (M), ungeeignete Wortwahl (S) und falsch angeordnete Wörter (W). Wir behandeln die Aufgabe als Sequenzmarkierungsproblem und entwickeln spezifische handgefertigte Merkmale zur Lösung. Unser System basiert hauptsächlich auf dem LSTM-CRF-Modell, wobei drei Ensembles-Strategien angewendet werden, um die Leistung zu verbessern. Auf der Ebene der Fehlererkennung und der Positionsidentifikation erzielt unser System die höchsten F1-Scores. Insbesondere auf der Positionsidentifikationsebene, die als die schwierigste Stufe gilt, erreichen wir die besten Ergebnisse in allen Metriken.